
18 июня DeepSeek включила режим работы с изображениями (Vision) в своем приложении и веб-версии. Об этом сообщил Чэнь Сяокан — один из авторов мультимодальных моделей серии DeepSeek-VL. Теперь в чате три режима вместо прежней пары кнопок: быстрый (Fast), экспертный (Expert) и зрение (Vision), который идеально подходит для понимания сложной графики.
Интереснее не сам факт, что нейросеть научилась смотреть, а то, как она при этом рассуждает. В основе режима лежит подход, который команда описала в техническом отчете под названием Thinking with Visual Primitives — «мышление визуальными примитивами». Вместо того чтобы просто описывать изображение словами, модель расставляет на нем точки и рамки и вплетает эти метки прямо в цепочку рассуждения — как человек, который водит пальцем по строчкам при счете или прокладывает путь в нарисованном на бумаге лабиринте. Логика такая: обычный текст слишком расплывчат, чтобы точно указать на нужный объект в плотной сцене, и из-за этой неточности модели начинают путаться и выдавать выдуманные ответы.
Технически зрение построено поверх модели DeepSeek-V4-Flash. Чтобы картинка не съедала слишком много вычислений, разработчики сжимают служебную память: каждые четыре визуальных токена схлопываются в одну запись. В итоге на одно изображение уходит заметно меньше ресурсов, чем у обычных мультимодальных моделей, — а это прямой удар по стоимости работы со зрением.
По заявлению авторов, на задачах подсчета объектов и пространственного рассуждения модель держится на уровне GPT-5.4, Claude Sonnet 4.6 и Gemini 3 Flash. Здесь важна оговорка, которую делают сами разработчики: это узкий срез тестов, подобранный под тему их работы, а не оценка общих способностей. К тому же веса модели пока не выложены.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1050004/