Вышел Qwen2.5-VL от Alibaba: распознавание часовых видео, агенты, структурные данные

Вышел Qwen2.5-VL от Alibaba

Астрологи объявили неделю китайских нейросетей. На этот раз у нас апдейт Qwen2.5-VL.

Это модель, умеющая принимать на вход на текст, так и изображения, обладает более развитой способностью «понимать» нарисованное на картинках, в том числе прекрасно справляется с обработкой видео длительности до 1 часа.

Ссылка на официальный блог: https://qwenlm.github.io/blog/qwen2.5-vl/

Ключевые улучшения

Взято из https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct и переведено на русский с небольшой редактурой для понятности:

Визуальное понимание

Модель Qwen2.5-VL не только умеет распознавать привычные объекты (цветы, птицы, рыбы, насекомые), но и способна анализировать тексты, диаграммы, иконки, графику и макеты внутри изображений.
Работа в формате ИИ-агента:

Qwen2.5-VL может напрямую выступать в роли визуального агента, который умеет рассуждать и динамически использовать различные инструменты, в том числе компьютер или телефон. [Привет, OpenAI Operator!]
Понимание длинных видео и фиксация событий:

Qwen2.5-VL способна разбирать видео длительностью более 1 часа.

Новая возможность — находить конкретные события, выделяя нужные фрагменты видео.
Точная локализация в разных форматах:

Модель умеет точно находить объекты на изображении, создавая bounding-box или указывая точки.

Она также может выдавать JSON с координатами и характеристиками объектов.
Генерация структурированных данных:

При работе со сканами счетов, форм, таблиц и т.п. Qwen2.5-VL поддерживает структурированный вывод их содержимого, что полезно в финансах, торговле и других сферах.

Обновления архитектуры модели

Динамическое разрешение и частота кадров при обучении видео:

Была расширена идея динамического разрешения, было добавлено временное измерение, и переменная частота кадров (FPS). Это помогает модели понимать видео с разными скоростями воспроизведения.

Также был обновлен mRoPE во временном измерении с помощью использования ID и абсолютной привязки ко времени. Это позволяет модели лучше понимать последовательность событий и скорость, чтобы точнее находить конкретные моменты в видео.

Упрощённый и быстрый визуальный энкодер:

Ускорено обучение и вывод результатов, используя оконное внимание (window attention) в ViT.

Архитектуру ViT оптимизировали с использованием SwiGLU и RMSNorm, чтобы она соответствовала структуре языковой модели Qwen2.5.

Бенчмарки

Тут всё не так однозначно. В каких-то (MathVista_MINI) Qwen2.5-VL уступает моделям от OpenAI, в каких-то лидирует.

Бенчмарки по иозбражений:

Benchmarks	GPT4o	Claude3.5 Sonnet	Gemini-2-flash	InternVL2.5-78B	Qwen2-VL-72B	Qwen2.5-VL-72B
MMMU_val	70.3	70.4	70.7	70.1	64.5	70.2
MMMU_Pro	54.5	54.7	57.0	48.6	46.2	51.1
MathVista_MINI	63.8	65.4	73.1	76.6	70.5	74.8
MathVision_FULL	30.4	38.3	41.3	32.2	25.9	38.1
Hallusion Bench	55.0	55.16		57.4	58.1	55.16
MMBench_DEV_EN_V11	82.1	83.4	83.0	88.5	86.6	88
AI2D_TEST	84.6	81.2		89.1	88.1	88.4
ChartQA_TEST	86.7	90.8	85.2	88.3	88.3	89.5
DocVQA_VAL	91.1	95.2	92.1	96.5	96.1	96.4
MMStar	64.7	65.1	69.4	69.5	68.3	70.8
MMVet_turbo	69.1	70.1		72.3	74.0	76.19
OCRBench	736	788		854	877	885
OCRBench-V2(en/zh)	46.5/32.3	45.2/39.6	51.9/43.1	45/46.2	47.8/46.1	61.5/63.7
CC-OCR	66.6	62.7	73.0	64.7	68.7	79.8

Бенчмарки по видео:

Benchmarks	GPT4o	Gemini-1.5-Pro	InternVL2.5-78B	Qwen2VL-72B	Qwen2.5VL-72B
VideoMME w/o sub.	71.9	75.0	72.1	71.2	73.3
VideoMME w sub.	77.2	81.3	74.0	77.8	79.1
MVBench	64.6	60.5	76.4	73.6	70.4
MMBench-Video	1.63	1.30	1.97	1.70	2.02
LVBench	30.8	33.1	—	41.3	47.3
EgoSchema	72.2	71.2	—	77.9	76.2
PerceptionTest_test	—	—	—	68.0	73.2
MLVU_M-Avg_dev	64.6	—	75.7		74.6
TempCompass_overall	73.8	—	—		74.8

Бенчмарки по «агентским» спосоностям:

Benchmarks	GPT4o	Gemini 2.0	Claude	Aguvis-72B	Qwen2VL-72B	Qwen2.5VL-72B
ScreenSpot	18.1	84.0	83.0			87.1
ScreenSpot Pro			17.1		1.6	43.6
AITZ_EM	35.3				72.8	83.2
Android Control High_EM				66.4	59.1	67.36
Android Control Low_EM				84.4	59.2	93.7
AndroidWorld_SR	34.5% (SoM)		27.9%	26.1%		35%
MobileMiniWob++_SR				66%		68%
OSWorld			14.90	10.26		8.83

Заключение

Alibaba выпустили модель в 3 вариантах — 3, 7 и 72 миллиарда параметров. Более подробное описание можно посмотреть на HuggingFace, а сама модель лежит на GitHub.

Вот уж мощное начало года для китайских специалистов в ИИ.

—

P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!

ссылка на оригинал статьи https://habr.com/ru/articles/877212/

Вышел Qwen2.5-VL от Alibaba: распознавание часовых видео, агенты, структурные данные