Исследовательская команда AI компании Alibaba представила QVQ-72B-Preview, новую модель с открытым исходным кодом, которая может анализировать изображения и делать выводы на их основе. Хотя она все еще находится на экспериментальной стадии, первые тесты показывают, что она особенно хороша в задачах визуального мышления.
Модель решает проблемы, продумывая их шаг за шагом, аналогично тому, как это делают другие так называемые модели рассуждений, такие как o1 от OpenAI или Flash Thinking от Google. Когда пользователи вводят изображение и инструкции, система анализирует информацию, берет время на размышление, если это необходимо, и выдает ответы с коэффициентами уверенности для каждого прогноза.
В основе QVQ-72B-Preview лежит существующая модель vision-language от Qwen, Qwen2-VL-72B, с добавленными возможностями для мышления и рассуждений. Qwen утверждает, что это первая модель с открытым исходным кодом в своем роде. Хотя она кажется похожей на недавно выпущенную модель рассуждений QwQ, команда не объяснила, связаны ли и как связаны эти две модели.
Чтобы протестировать модель, Qwen использовала четыре различных критерия: тесты MMMU проверяют понимание визуальной информации на уровне колледжа, MathVista оценивает, насколько хорошо она может рассуждать через математические графики, MathVision бросает вызов задачами математических соревнований, а OlympiadBench тестирует олимпийские задачи по математике и физике на китайском и английском языках. В этих тестах QVQ показала результаты лучше, чем ее предшественница Qwen2-VL-72B-Instruct, достигнув уровней точности, сопоставимых с закрытыми моделями, такими как o1 от OpenAI и Claude 3.5 Sonnet.
QVQ-preview Qwen признает, что у модели все еще есть некоторые ограничения. Она может неожиданно переключаться между языками или застревать в циклах круговых рассуждений – проблемы, которые даже o1 от OpenAI еще не решил. Во время сложных задач визуального мышления модель иногда теряет нить того, что рассматривает, что может привести к галлюцинациям. Команда также отмечает, что модели нужны более сильные меры безопасности, прежде чем она будет готова к широкому использованию.
Qwen описывает QVQ как их «последний подарок» в этом году и рассматривает это как шаг к более крупной цели: созданию того, что они называют «всезнающей и интеллектуальной моделью» на пути к AGI. Как и OpenAI с GPT-4o, команда планирует создать единую Omni-модель, которая сможет решать более сложные научные задачи.
«Представьте себе AI, который может взглянуть на сложную задачу по физике и методично прийти к решению с уверенностью мастера-физика», объясняет команда.
Исходный код и веса модели QVQ доступны на странице проекта, а также предоставлен бесплатный демо на Hugging Face.
ссылка на оригинал статьи https://habr.com/ru/articles/869864/
Добавить комментарий