До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый

На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.

Джекил и Хайд против священной коровы ML

Чуть больше 140 лет назад в Лондоне опубликовали готический роман Стивенсона “Странная история доктора Джекила и мистера Хайда”. Чтобы отметить этот юбилей, мы попросили их (Джекила и Хайда) помочь нам рассказать о новейших мировых достижениях в области компьютерного зрения, о которых почти никто пока не знает, но которые достигаются вот здесь, у всех под боком, на Руси (с небольшими нюансами некоторых удаленщиков).

Кто где диктовал – угадайте сами.

Стенд, где десяток изображений и одна кнопка заменяют GPU-кластера и эмэль‑шаманство

Мы разработали уникальный во всех смыслах слова стенд. И с развитием стенда ML-щики будут ….й не нужны, потому что никаких действий от ML-щиков внутри больше требоваться не будет. Положите в стенд изображения (десяток‑другой, вместо тысяч), понажимайте кнопки — получите результат.

Чтобы пользоваться нашим стендом, не нужно быть айтишником, а можно – быть кем угодно. Вы можете тренировать модель для себя. Айтишник может пригодиться на этапе наладки отправки данных с вашего приложения, камеры или чего угодно ещё в нашу систему, чтобы мгновенно получать ответ/результат. Либо для разметки данных, потому что у нас этого интерфейса пока еще нет.

Дальше – подробней.

Результаты стандартных бенчмарков

За последние пару недель мы поработали над детекцией и классификацией. Вот что получилось: Oracle Classification — 93.1%, Detection — 89.3%, mAP50 — 78.9%, mAP50‑95 — 60.0%. Предыдущие результаты: 87.3%, 84.2%, 78.1% и 58.9% соответственно.

Метрика	Было	Стало
Oracle Classification	87.3%	93.1%
Detection	84.2%	89.3%
mAP50	78.1%	78.9%
mAP50‑95	58.9%	60.0%

Классификация улучшилась почти на 6%, детекция — на 5.1% по нашим меркам. Конкретные COCO‑метрики выросли меньше: бенчмарки COCO сильно зависят от покрытия боксов и точности их размеров, а мы сейчас не максимизируем tight box prediction, а фокусируемся на детекции как таковой. Но нам не пришлось для того, чтобы сразу на несколько процентов улучшить и так SOTA-уровня результаты закупать GPU-кластеры, мы просто продолжили делать свою работу.

Кстати, наши модели очень-очень быстро тренируются. Чтобы вы понимали, RF-DETR, например, является первой реал-тайм моделью, которая получила > 60% на mAP50-95. (Хотя RF-DETR-2XL назвать реалтайм все-таки сложно, ибо она очень зависит от архитектуры GPU). Мы же получаем очень схожий результат, обладая скоростью намного выше, при этом не сосредотачиваясь на этой метрике и обрабатывая x4 скорость реал-тайма.

Очкарик, дай я добавлю. На днях немножк охреневшие сотрудники одного потенциального заказчика из горнодобывающей индустрии (почему охреневшие — в ближайшем памфлете напишем) загрузили в стенд 500 изображений, и получили сходу результат 86% детекции и классификации. Сходу, внимание. А не путём долгих дорогих эм‑эль извращений. Поднять этот результат до 95%+ для нас — относительно простая задача, благо мы уже разогнались по “рельсам распознавания”, которые же сами и построили.

ML-индустрия плохо шарит в вычислениях

Мы давно знаем и даже иногда утверждаем, что вычисления не могут быть такими сложными, каковы они сегодня в ML-индустрии, что не нужно тратить на них, …дь, ах.лиард времени. Но вся ML (или ИИ, это одно и то же в нашем понимании) индустрия находится в положении прилежного школьника‑хорошиста, который знает математическую базу, но далеко не всегда умеет её использовать по назначению. Городит огород из сложносочинённых решений**, хотя есть простой прямой путь*.

И еще мы заметили, что вся индустрия обладает тенденцией решить задачу на минимальном уровне (каждый рост рекордных значений – чаще всего в пределах пары процентов), выставляя ценой увеличение количества необходимых ресурсов буквально в десятки раз. У той же самой DiNO, например, нет по сути необходимости обладать сотней миллионов параметров для решения задач – без большей части этих параметров модель продолжала бы решать задачи на почти том же самом уровне, максимум снизив точность своих ответов на 2-3 %.

*(Поясним, что имеем в виду под “простым путем”. ИИ-шники, не читаете, а то расстроитесь и побежите доказывать, что ИИ – вот где предел технологий по вычленению смыслов из информации/данных самым эффективным способом.

Так вот, ТАРе, конечно, не простой путь – практика общения, создания гипотез, теорем, формул, технологий, продуктов и решений со всеми «типами» слушателей это показывает. Наоборот, это очень НЕпростой путь именно потому, что решения на базе ТАРе просты, возможно даже максимально просты, максимально настолько, как может сжиматься и разжиматься информация в мозге человека).

**(А было время, когда иишный гуру Хинтон ругался во время своих выступлений на «традиционных» учёных за сложность их гипотез, теорем, формул, доказательств и прочее, и во всеуслышание заявлял о том, что его-де подходы, которые теперь громко обозвали ИИ, всё позволяют делать очень просто).

Язык Мышления против священных архитектур

Тот самый прямой путь, неведомый эмэльщикам, мы реализовали в стенде, ибо TAPe – универсален, а не создавался для детекции или классификации или для какой-нибудь друго конкретной задачи или подзадачи распознавания. Стенд позволяет нивелировать шаг за шагом всё то, что те, кто не в теме, считают магией, а сами ML‑щики с удовольствием поддерживают репутацию, что они делают что‑то охрененное, куда простым людям путь заказан. Что‑то делают, разворачивают какие‑то дорогущие хреновины, загоняют какие‑то данные, делают какую‑то “магию”. Но магии и не нужно. Нужна “всего-навсего” скрупулезная, жесточайшая, выведенная миллиардами лет эволюции эффективность человеческого мышления. Мы вместе Джерри Фодором называем это Языком Мышления, который мы смогли воплотить в TAPe, а TAPe – в TAPe-технологиях. Это и есть прямой путь.

Наши результаты уже сейчас сопоставимы с файн‑тюнинговыми дорогущими моделями, вокруг которых глубочайше колдовали эмэльщики. Хотя мы еще далеко не все фишки завели в прод – работаем над тем, как ввести их, не раскрывая ноу-хау.

Передаю слово очкарику.

Немного технической базы про наши эксперименты

Спасибо, дорогой. Наши эксперименты с улучшением классификации привели нас к улучшению детекции за счёт того, что обе эти «головы» (не совсем так, но так нам проще их называть) соединены друг с другом. Детекция видит лучшие направления, если классификация работает лучше, а также может правильней организовать конечный ответ. Конкретно: модель была улучшена четырьмя маленькими архитектурными изменениями.

Тремор. Во время сбора патчей из боксов самих объектов (GT) мы стали сдвигать весь бокс случайным образом по обеим координатам X и Y на небольшой процент (не более 5% суммарно, чтобы не ухудшать результаты детекции). Это стандартный приём регуляризации: тремор помогает модели не запоминать тренировочные данные, а искать правила во время обучения.
Кластеризация тренировочных данных по размерам объектов. Из‑за патчей каждый бокс порождал разное количество патчей, и модель начинала «угадывать» объект по этому косвенному сигналу. COCO при этом сам по себе обладает размерными байасами. Решение — балансировать тренировочные данные по размеру, чтобы убрать shortcut «маленький с резкими границами → бутылка».
Балансировка по соотношению сторон бокса. Модель научилась угадывать объекты по тому, вертикальный или горизонтальный бокс: автомобили сбоку шире, спереди/сзади ближе к квадрату. Балансировка уже и по размеру, и по aspect ratio снова выбивает этот костыль.
Прототипирование. Балансировка привела к тому, что доминирующие размеры стали реже показываться, модель начала «забывать» объекты. Прототипирование даёт несколько описаний на класс и удерживает подтипы в памяти, параллельно уменьшая эффект проблем из двух предыдущих пунктов.

Нам пора, мы уходим. (Уходят).

Итого: кого мы зовём в стенд и с чем

Дорогие руководители всего и вся ИТ-направлений, доступ к стенду с возможностью файн-тюнинга посредством работы не только стенда, но и нашего спеца по TAPe+ML даст вам не только глобальное сокращение затрат на вычислительную составляющую вашего ML-решения, но и не нужных штатных единиц.

Забудьте о тонне GPU, кластерах, серверах и проч. Просто тренируйте на нашем стенде «свои» модели. Но не всем дадим доступ, только вменяемым* – предупреждаем сразу.

Тренируйте, а мы будем смотреть на ваши данные и результаты, совершенствовать методы, способы, добавлять их в стенд, советовать вам улучшайзинг, какие конкретно для вас нужно выбрать показатели, чтобы достигнуть максимального результата внутри нашей системы. Именно так это сейчас уже и работает.

Если вы хотите начать работать со стендом на своих данных — пишите в мне в телегу или в личку например @oopatow Дообучение модели плюсом к COCO-классам тоже является частью стенда, как и другие варианты работы с данными клиента. Если хотите зайти сразу с пилотом, доменной задачей или корпоративным сценарием — тоже пишите: обсудим, как быстро это превращается в рабочий пайплайн, а не в очередной бесконечный ML‑проект.

*Критерии вашей вменяемости

Вменяемые – это те, кто:

понимает, что быстро только кошки родятся и мухи женятся, и не требуют всего, сразу, вчера, бесплатно, да еще и рассказать всё ноу-хау, убедить, что мы не мошенники, а еще облизать и т.д.; такие сразу идут лесом;
хоть что-то находит для себя в датах, достижениях и в состоянии построить логический ряд, например:
- теорема Байеса 1763 г — начало применения в МЛ — 10-20-е 21-го века;
- преобразование Фурье 1807 год — 1965 год метод Кули/Тьюки – применение в CV и ML – по сю пору;
- Хинтон — 1-я диссертация на около-эмэльную тему — 1978 г., далее переезд в США, хождения по Кремниевой долине, 1986 год — backpropagation (хотя и не он автор), Канада, Торонто, Университет, в 2012 г – AlexNet, ImageNet, гугл, Нобелевка в 2024.
- Можете сами продолжить с другими несомненно уважаемыми людьми и достижениями. Нам, например, нравится Хопфилд и его квантовые отжиги, ассоциативные памяти и тоже Нобелевкой по физике в 2024 году — опять за ML
Тогда как Теория Активного Восприятия:
основы заложены в 20-м веке;
первые применения на очень, надо признаться, примитивном, если исходить из предельных возможностей TAPe, уровне – 2010-е;
2020 г – глубокий НиР;
технологический прорыв для небывалой задачи поиска видео по видео – конец 2024;
технологический прорыв по TAPe+ML – конец 2025;
COCO и детекция на базе TAPe+ML – конец марта 2026;
1-я итерация стенда на базе TAPe+ML 8 мая 2026;
дальнейшие прогнозы нашей семимильной скорости стройте сами.

Всем пис.

ссылка на оригинал статьи https://habr.com/ru/articles/1035770/