Google DeepMind выпустила Gemma 4 12B — новую открытую ИИ-модель, которая работает локально на обычном ноутбуке с 16 ГБ памяти и по тестам почти дотягивается до более крупной модели 26B из того же семейства. Модель понимает текст, изображения и звук и распространяется по свободной лицензии Apache 2.0 — ее можно скачать (Hugging Face, Kaggle) и использовать без ограничений, в том числе в коммерческих продуктах.
Самое любопытное в Gemma 4 12B — ее устройство. Обычно, чтобы модель работала с картинками и звуком, к ней пристраивают отдельные энкодеры: они сначала переводят изображение или аудио в понятный модели вид и только потом передают дальше. Эти блоки добавляют задержку и расходуют память. Google от них отказалась: в новой модели картинки и звук подаются напрямую в саму языковую модель. Тяжелый энкодер зрения заменили облегченным слоем, а аудиоэнкодер убрали совсем. Звук при этом не превращается в текст — модель переводит его в такой же набор чисел, каким внутри себя описывает слова, и обрабатывает наравне с текстом.

В линейке Gemma 4 новая модель встает между компактной E4B, рассчитанной на смартфоны, и более мощной 26B. При этом 12B стала первой средней моделью Gemma, которая умеет работать со звуком из коробки, — раньше так умели только самые маленькие версии. Google также сообщила, что модели Gemma 4 в сумме скачали уже более 150 млн раз, и на них строят все подряд: от носимых роботизированных рук до корпоративных систем безопасности.
Само семейство Gemma 4 Google представила в начале апреля сразу в четырех размерах и впервые выложила под Apache 2.0 — прежние версии шли под собственной лицензией с ограничениями. Тогда же старшая модель 31B заняла третье место среди открытых моделей в рейтинге Arena AI, а версия 26B — шестое, обойдя модели в разы крупнее.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1043342/