Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей — сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации. В России они тоже есть: конечно, это не собственная разработка, не собственная архитектура, не собственная математика, а «всего лишь» надстройка со своими датасетами и пр.

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой” («математика» в кавычках, потому что в нашем случае классической математикой дело не исчерпывается). И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое, чем все остальные ML-модели (и не только). Понятно, что эта разница на порядки в количестве параметров потом проецируется на “железо”, скорость, затраты и прочие штучки, важные для бизнеса. Да, мы можем, например, обрабатывать N число видеопотоков на очень маленьком количестве оборудования с очень плохих камер. И показывать при этом результаты лучше, чем SOTA.

Наши результаты скорее всего просто недостижимы для любых других сервисов, моделей и так далее. Мы уже говорили, что пиксели “вредят” ИИ: построить разрушенные (при переводе в пиксели) связи в исходном изображении ML может и не суметь, и уж точно не сумеет правильно – отсюда и миллиарды параметров.

Мы вводим понятие “лучше SOTA”.

У нас другая технология, другие методы, которые позволяют добиваться непредставимо лучших результатов – а вы уже сейчас можете придумывать задачи, которые казались вам нереализуемыми или очень трудно реализуемыми с текущими – SOTA ли, не-SOTA ли – технологиями.

Говорить, что нам нужно меньшее количество ресурсов – не совсем точно, потому что это не объясняет примерно ничего. Еще раз: как описать этот gap между сотней миллионов параметров и ста тысячью, между фермой NVIDIA Tesla T4 и CPU x2 Inel Xeon E5-2697 v2 @ 2.70GHz, ОЗУ 256 Гб памяти, DDR3, 1600 MT/s, при том что мы не задействуем видеокарту для их работы никаким образом, а ОЗУ используется меньше 2х гигабайт во время тренировки? Можно ли объяснить ли превосходство современных станков на заводах над ручной силой рабов Древнего Египта простым перечислением цифр мощности, скорости и проч.?

TAPe – это качественные изменения.

Если у нас для реальных задач с производства, где попробовали буквально всё, mAP-95 выше, чем у самых крутых ML, то о чем говорить? Рассматривать другие показатели? Точность? Точность у нас тоже лучше. Время обучения? Тоже лучше. А число изображений, необходимое для обучения модели на классе? Тоже другое. А “железка”, которая все это обрабатывает? Тоже другая.

И что же у нас тогда пересекается с современным так называемым классическим ML? Да ничего.

Мы даже сейчас не говорим, чтобы не забегать вперед, что если бы были чипы, работающие по TAPe, камеры, работающие по TAPe, то и наша модель была бы еще лучше. Точнее нет, вот так: тогда нашей модели не было бы, потому что она была бы не нужна, так как не нужен был бы ML, а нужен был бы чистый TAPe.

Посему мы и говорим о том, что у нас просто всё — другое, а то что у нас каждый параметр, на который принято обращать внимание, лучше, чем у любых конкурентов – это уже детали.

Как правильно все это сформулировать мы пока не знаем.

Эра TAPe, по крайней мере в научном плане, уже началась:)

То, что об этом знает небольшое количество людей, говорит лишь о наших маркетинговых возможностях. Мы уже реализовали TAPe научно, уже создали на основе TAPe продукты.

Может быть завтра появится где-то в мире новая модель, которая покажет точность в детекции лучше, чем у YOLO на несколько процентов, и об этом напишут обзоры, релизы, разборы, статьи, потратят маркетинговые бюджеты, чтобы об этом узнало как можно больше людей.

Но это же не то же самое, что десятки миллионов параметров vs меньше ста тысяч параметров. Это другое. Вообще – другое.

У нас: RF-DETR 2XL (127 млн параметров) достигли максимального показателя точности детекции на COCO-датасете mAP50-95 в 60.1 и это стало мировым бенчмарком. YOLO так и не смогли достичь этих высот. А мы сходу получили 62%.

И мы получили в классификации 86,6%, а Meta* с ее DINOv3 и 7 млрд параметрами — 88,4%.

Да, это звучит невероятно и вы можете не верить, но, во-первых, в обоих случаях (в детекции и классификации) у нас меньше 100 тыс. параметров.

А во-вторых – чуть не забыли сказать – это одна модель. Одна модель распознавания по TAPe.

Мы называем ее TAPe+ML v2 – и в ближайшее время напишем о ней статью и выложим в открытый доступ, как только докрутим обязательные технические нюансы. Ну и способы платежей за это чудо – не бесплатно же.

А пока здесь можно посмотреть файл презентации

ссылка на оригинал статьи https://habr.com/ru/articles/1049284/