Визуальный поиск: Новый подход к обнаружению объектов

Автор: Денис Аветисян

Исследователи представили LocateAnything — систему, значительно ускоряющую и повышающую точность поиска объектов на изображениях по текстовому описанию.

Предложенная система, LocateAnything, объединяет разнообразные задачи локализации под единой нейронной сетью, применяя новаторский подход к декодированию координат: вместо последовательного определения каждой цифры координат или предсказания отдельных токенов, система предсказывает геометрические единицы, такие как ограничивающие рамки, за один прямой проход, что обеспечивает значительное повышение эффективности и гибкости.

Метод LocateAnything использует параллельное декодирование ограничивающих рамок для улучшения скорости и качества визуального обоснования и обнаружения объектов.

Существующие модели для визуального обоснования и обнаружения объектов часто страдают от низкой скорости и неэффективности из-за последовательной обработки координат ограничивающих рамок. В данной работе представлена система ‘LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding’ — унифицированный фреймворк, использующий параллельное декодирование ограничивающих рамок для значительного ускорения и повышения точности задач визуального обоснования и обнаружения объектов. Внедрение параллельного декодирования позволяет сохранить геометрическую согласованность и обеспечить существенный прирост производительности, что подтверждено на крупномасштабном датасете LocateAnything-Data. Способны ли подобные подходы открыть новые горизонты для создания более эффективных и точных систем компьютерного зрения?

Препятствие Последовательного Декодирования

Современные модели, объединяющие зрение и язык, часто полагаются на последовательное декодирование, подобно предсказанию следующего слова в предложении. Такой подход создает вычислительное препятствие, особенно при решении сложных задач. Эта последовательность ограничивает скорость и точность определения местоположения объектов и детального сопоставления визуальной информации с текстовыми описаниями. Существующие методы испытывают трудности с эффективной обработкой визуальных данных и созданием полных описаний, что сужает сферу их практического применения. Вместо одновременной обработки всей информации, модель вынуждена анализировать ее по частям, что замедляет процесс и снижает качество результата, особенно в ситуациях, требующих быстрого и точного восприятия визуальной сцены.

В задачах оптического распознавания символов, LocateAnything обеспечивает точное выделение текстовых элементов как в неструктурированных (например, обложки журналов), так и в структурированных документах (например, таблицы), в отличие от базовых моделей, которые часто демонстрируют ошибки форматирования или объединяют отдельные текстовые блоки.

Революция в обнаружении объектов: Параллельное декодирование прямоугольных областей

Метод Параллельного декодирования прямоугольных областей, представленный LocateAnything, знаменует собой существенный прорыв в скорости обработки изображений. В отличие от традиционных подходов, требующих последовательного определения координат ограничивающих прямоугольников для каждого объекта, данная техника предсказывает их координаты за один проход. Это достигается благодаря использованию Мульти-токенного предсказания, позволяющего одновременно обрабатывать несколько объектов, что приводит к впечатляющему увеличению скорости обработки — в 2,5 раза. Такая параллелизация особенно важна для приложений, требующих обработки в реальном времени, и для анализа сложных сцен с большим количеством объектов, где быстрая и эффективная обработка является ключевым фактором.

В условиях высокой плотности объектов и значительного перекрытия, представленный подход LocateAnything демонстрирует превосходство над традиционными моделями токенизации и основанными на точках, обеспечивая компактные, чётко разграниченные и точные ограничивающие рамки благодаря блочной внутри-вниманию и обучению на этапе Stage-2 с учетом плотности.

Оптимальная производительность благодаря гибридному декодированию

В основе LocateAnything лежит режим гибридного декодирования, который объединяет скорость параллельного декодирования с точностью последовательных методов. Эта стратегия позволяет модели динамически адаптироваться к задачам, используя быстрый режим для областей, где требуется высокая скорость обработки, и сохраняя прецизионность в критически важных участках. Экспериментальные результаты демонстрируют, что данный подход превосходит традиционные методы на стандартных наборах данных: достигнут показатель F1@mIoU в 52.0 для COCO, 79.8 для DocLayNet, 83.9 для F1@Point в COCO и 87.6 для Dense200. Таким образом, гибридный подход обеспечивает оптимальный баланс между скоростью и точностью, расширяя возможности модели в различных областях применения.

Модель LocateAnything превосходит Qwen3-VL и Rex-Omni в понимании ссылочных выражений благодаря более точному сопоставлению сложных запросов, основанных на пространственных или атрибутивных признаках, с соответствующими областями изображения.

Визуальный поиск: масштабируемость и эффективность

Система LocateAnything демонстрирует высокую обобщающую способность благодаря обучению на обширных наборах данных, таких как SA-1B и Unsplash, что позволяет ей успешно работать с разнообразными визуальными сценариями. Для максимального использования ресурсов графического процессора и ускорения обработки применяется инновационный метод Stream Packing. Кроме того, разработанный механизм внимания MagiAttention эффективно обрабатывает неоднородные маски внимания, повышая общую производительность модели. Этот подход позволяет LocateAnything достигать высокой точности и скорости поиска даже в сложных условиях, обеспечивая эффективную работу с большими объемами визуальной информации.

Локализация в LocateAnything осуществляется путем генерации последовательности блоков фиксированной длины, выровненных по границам, включающих семантические, ограничивающие, негативные и завершающие блоки для совместного определения предсказанных объектов или состояний завершения.

Визуальный интеллект: Новый горизонт возможностей

Новая система LocateAnything демонстрирует значительный прорыв в области визуального мышления, превосходя существующие модели, такие как Qwen3-VL, в задачах точного определения местоположения объектов и их обнаружения на изображениях. Эта разработка открывает новые перспективы для широкого спектра приложений, включая робототехнику, беспилотные автомобили и дополненную реальность, благодаря своей эффективности и масштабируемости. Исследователи планируют расширить возможности системы, обучая ее решению более сложных задач, требующих глубокого анализа и логических выводов, а также изучая потенциал обучения на основе нескольких типов данных, таких как изображения, текст и звук, для создания по-настоящему интеллектуальных систем.

Система обработки данных для мультитаргетированного определения объектов использует синтезированные Qwen3-VL запросы, основанные на ограничивающих рамках или непосредственно на изображениях, для предсказания точек Molmo и последующего получения ограничивающих рамок с помощью SAM 3 или Rex-Omni, с финальной верификацией Qwen3-VL для обеспечения точности.

Он размышляет о представленной работе, видя в ней очередное заклинание, призванное обуздать хаос визуальных данных. LocateAnything, с его параллельным декодированием ограничивающих рамок, — это попытка не столько понять изображение, сколько уговорить его раскрыть свои секреты. Как и любое заклинание, оно обещает скорость и точность, но истинная магия кроется в тонкой настройке гиперпараметров — в способе убедить модель, где заканчивается реальность и начинается иллюзия. Ведь, как говорил Джеффри Хинтон: «Нейронные сети учатся, находя закономерности, а не понимая причины». Это заклинание, вероятно, сработает… пока не столкнётся с первым производственным провалом, когда шепот хаоса вновь одержит верх.

Куда же дальше?

Представленный здесь “LocateAnything” — лишь ещё одно заклинание, призванное обуздать хаос визуального мира. Параллельное декодирование ограничивающих рамок — элегантный трюк, но он не решает фундаментальной проблемы: мир не дискретен, просто у нас нет памяти для float. Попытки загнать непрерывность в рамки отдельных объектов — это всегда приближение, всегда потеря информации. Истина кроется в шуме, в неопределенности, а не в точных координатах.

Следующим шагом, вероятно, станет отказ от самой идеи “объекта”. Вместо того, чтобы искать границы, стоит научиться понимать отношения между визуальными элементами, их взаимное влияние. Не “что это?”, а “как это связано?”. Модели, способные улавливать контекст и динамику визуальной сцены, будут куда полезнее, чем те, что просто находят прямоугольники вокруг предметов.

И всё же, не стоит забывать: любая модель — это лишь карта, а не сама территория. Чем сложнее карта, тем больше она отвлекает от реальности. Поиск смысла в визуальном мире — это не поиск корреляции, а попытка понять, что этот мир пытается нам сказать. И этот разговор всегда будет неполным, всегда будет загадочным.

Оригинал статьи: https://arxiv.org/pdf/2605.27365.pdf

ссылка на оригинал статьи https://habr.com/ru/articles/1041738/