Вышел Qwen2.5-VL от Alibaba
Астрологи объявили неделю китайских нейросетей. На этот раз у нас апдейт Qwen2.5-VL.
Это модель, умеющая принимать на вход на текст, так и изображения, обладает более развитой способностью «понимать» нарисованное на картинках, в том числе прекрасно справляется с обработкой видео длительности до 1 часа.
Ссылка на официальный блог: https://qwenlm.github.io/blog/qwen2.5-vl/
Ключевые улучшения
Взято из https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct и переведено на русский с небольшой редактурой для понятности:
-
Визуальное понимание
Модель Qwen2.5-VL не только умеет распознавать привычные объекты (цветы, птицы, рыбы, насекомые), но и способна анализировать тексты, диаграммы, иконки, графику и макеты внутри изображений.
-
Работа в формате ИИ-агента:
Qwen2.5-VL может напрямую выступать в роли визуального агента, который умеет рассуждать и динамически использовать различные инструменты, в том числе компьютер или телефон. [Привет, OpenAI Operator!]
-
Понимание длинных видео и фиксация событий:
Qwen2.5-VL способна разбирать видео длительностью более 1 часа.
Новая возможность — находить конкретные события, выделяя нужные фрагменты видео.
-
Точная локализация в разных форматах:
Модель умеет точно находить объекты на изображении, создавая bounding-box или указывая точки.
Она также может выдавать JSON с координатами и характеристиками объектов.
-
Генерация структурированных данных:
При работе со сканами счетов, форм, таблиц и т.п. Qwen2.5-VL поддерживает структурированный вывод их содержимого, что полезно в финансах, торговле и других сферах.

Обновления архитектуры модели
-
Динамическое разрешение и частота кадров при обучении видео:
Была расширена идея динамического разрешения, было добавлено временное измерение, и переменная частота кадров (FPS). Это помогает модели понимать видео с разными скоростями воспроизведения.
Также был обновлен mRoPE во временном измерении с помощью использования ID и абсолютной привязки ко времени. Это позволяет модели лучше понимать последовательность событий и скорость, чтобы точнее находить конкретные моменты в видео.
-
Упрощённый и быстрый визуальный энкодер:
Ускорено обучение и вывод результатов, используя оконное внимание (window attention) в ViT.
Архитектуру ViT оптимизировали с использованием SwiGLU и RMSNorm, чтобы она соответствовала структуре языковой модели Qwen2.5.
Бенчмарки
Тут всё не так однозначно. В каких-то (MathVista_MINI) Qwen2.5-VL уступает моделям от OpenAI, в каких-то лидирует.
Бенчмарки по иозбражений:
|
Benchmarks |
GPT4o |
Claude3.5 Sonnet |
Gemini-2-flash |
InternVL2.5-78B |
Qwen2-VL-72B |
Qwen2.5-VL-72B |
|---|---|---|---|---|---|---|
|
MMMUval |
70.3 |
70.4 |
70.7 |
70.1 |
64.5 |
70.2 |
|
MMMU_Pro |
54.5 |
54.7 |
57.0 |
48.6 |
46.2 |
51.1 |
|
MathVista_MINI |
63.8 |
65.4 |
73.1 |
76.6 |
70.5 |
74.8 |
|
MathVision_FULL |
30.4 |
38.3 |
41.3 |
32.2 |
25.9 |
38.1 |
|
Hallusion Bench |
55.0 |
55.16 |
|
57.4 |
58.1 |
55.16 |
|
MMBench_DEV_EN_V11 |
82.1 |
83.4 |
83.0 |
88.5 |
86.6 |
88 |
|
AI2D_TEST |
84.6 |
81.2 |
|
89.1 |
88.1 |
88.4 |
|
ChartQA_TEST |
86.7 |
90.8 |
85.2 |
88.3 |
88.3 |
89.5 |
|
DocVQA_VAL |
91.1 |
95.2 |
92.1 |
96.5 |
96.1 |
96.4 |
|
MMStar |
64.7 |
65.1 |
69.4 |
69.5 |
68.3 |
70.8 |
|
MMVet_turbo |
69.1 |
70.1 |
|
72.3 |
74.0 |
76.19 |
|
OCRBench |
736 |
788 |
|
854 |
877 |
885 |
|
OCRBench-V2(en/zh) |
46.5/32.3 |
45.2/39.6 |
51.9/43.1 |
45/46.2 |
47.8/46.1 |
61.5/63.7 |
|
CC-OCR |
66.6 |
62.7 |
73.0 |
64.7 |
68.7 |
79.8 |
Бенчмарки по видео:
|
Benchmarks |
GPT4o |
Gemini-1.5-Pro |
InternVL2.5-78B |
Qwen2VL-72B |
Qwen2.5VL-72B |
|---|---|---|---|---|---|
|
VideoMME w/o sub. |
71.9 |
75.0 |
72.1 |
71.2 |
73.3 |
|
VideoMME w sub. |
77.2 |
81.3 |
74.0 |
77.8 |
79.1 |
|
MVBench |
64.6 |
60.5 |
76.4 |
73.6 |
70.4 |
|
MMBench-Video |
1.63 |
1.30 |
1.97 |
1.70 |
2.02 |
|
LVBench |
30.8 |
33.1 |
— |
41.3 |
47.3 |
|
EgoSchema |
72.2 |
71.2 |
— |
77.9 |
76.2 |
|
PerceptionTest_test |
— |
— |
— |
68.0 |
73.2 |
|
MLVU_M-Avg_dev |
64.6 |
— |
75.7 |
|
74.6 |
|
TempCompass_overall |
73.8 |
— |
— |
|
74.8 |
Бенчмарки по «агентским» спосоностям:
|
Benchmarks |
GPT4o |
Gemini 2.0 |
Claude |
Aguvis-72B |
Qwen2VL-72B |
Qwen2.5VL-72B |
|---|---|---|---|---|---|---|
|
ScreenSpot |
18.1 |
84.0 |
83.0 |
|
|
87.1 |
|
ScreenSpot Pro |
|
|
17.1 |
|
1.6 |
43.6 |
|
AITZ_EM |
35.3 |
|
|
|
72.8 |
83.2 |
|
Android Control High_EM |
|
|
|
66.4 |
59.1 |
67.36 |
|
Android Control Low_EM |
|
|
|
84.4 |
59.2 |
93.7 |
|
AndroidWorld_SR |
34.5% (SoM) |
|
27.9% |
26.1% |
|
35% |
|
MobileMiniWob++_SR |
|
|
|
66% |
|
68% |
|
OSWorld |
|
|
14.90 |
10.26 |
|
8.83 |
Заключение
Alibaba выпустили модель в 3 вариантах — 3, 7 и 72 миллиарда параметров. Более подробное описание можно посмотреть на HuggingFace, а сама модель лежит на GitHub.
Вот уж мощное начало года для китайских специалистов в ИИ.
—
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!
ссылка на оригинал статьи https://habr.com/ru/articles/877212/
Добавить комментарий