Статья о наболевшем.
Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбом
Рынок тут не при чем. просто сначала ты разговариваешь не с компанией, а с прослойкой людей, которые отлично умеют мешать, но плохо понимают – или не хотят понимать – что им показывают.
Когда делаешь новую технологию, очень хочется думать, что дальше всё будет по-взрослому: покажешь результаты, статьи, объяснишь ограничения, дашь ссылку на стенд, предложишь пилот – и пойдёт нормальный разговор. На практике он почти никогда не идёт. Сначала ты разговариваешь не с компанией и не про задачу, а с прослойкой людей между компанией и реальностью.
Ужасы бесконечных переговоров с корпорациями
Эта прослойка бывает двух типов. Первый – назовем его мягко “Фома неверующий”. Он просто не понимает, что ему показывают, но всё равно мешает. Второй – умник. Он понимает чуть больше, но мешает с гораздо большим удовольствием, потому что ему важно не разобраться, а сохранить лицо, статус и ощущение собственной необходимости. Иногда это два разных человека. А иногда один и тот же.
В теории разговор очень простой. Есть технический результат: на нестандартной задаче заказчика YOLO (L) c 25M+ параметров вообще не сходится и даёт 28%, а при переходе работы с нашей моделью получается в итоге 85–85,7% – на тридцати, простите, изображениях и без больших НИОКР-работ (после них цифры уже лучше). Есть уже понятная причина, почему так происходит: задача не COCO-подобная (то есть изображения не подходят ни под один из 80-ти стандартных классов COCO-датасета), объекты визуально нестабильны, обычная логика обучения в лоб там не вытягивает. Благодаря TAPe технологии на ее основе позволяют решать такие задачи. К слову сказать, TAPe не про детекцию/классификацию/сегментацию, а именно про распознавание, которое включает в себя все перечисленное.
Есть также стенд TAPe — окружение, в котором TAPe выступает как универсальная архитектура компьютерного зрения, поверх которой запускаются разные задачи. Стенд позволяет всё это проверять на своих данных: сначала в одном режиме, потом в более широком, с возможностью трогать уже не только голову, но и backbone. Казалось бы, вот предмет разговора.
Дипломированный умник
Но реальный разговор часто почти сразу съезжает в цирк. Один собеседник читает наши статьи на Хабре, видит «стандартная DINO» и начинает объяснять, что baseline сломан, условия неэквивалентны, гиперпараметры у вас не те, и вообще вы, видимо, сами не поняли, что сделали. Ему спокойно отвечают: в этом и смысл, что DINO была именно стандартная, без подкруток, чтобы проверить пределы обычного решения. В нормальном мире после этого человек говорит: окей, понял. В корпоративном мире он немедленно перепрыгивает на следующую ветку: «ну тогда покажите на практической задаче», «а за что здесь платить», «а где польза клиенту». То есть свою первую претензию он уже уронил, но признать этого не может, поэтому просто меняет тему.
Потом в процессе переговоров ему дают ровно то, что он просил: инструмент проверки возможностей нашего технологического стэка: стенд, где есть возможность руками посмотреть, что происходит. Но оказывается, что проверка ему тоже не нужна, а нужно сохранить право не верить, не проверяя. Поэтому сразу начинаются разговоры про то, что продукт не готов, COCO – это «вакуум», а «фейки он и сам умеет делать». После этого, как по расписанию, в разговор запихивается уже своя конкретная боль: свои данные, странные форматы, производственные проблемы, которые почему-то теперь тоже должны стать вашей обязанностью.
Это очень типичный сценарий разговора, когда сначала тебя просят доказать, что технология вообще существует, потом – что она работает на открытой задаче, потом – что её можно потрогать на стенде. А потом внезапно выясняется, что на самом деле от тебя с самого начала хотели совсем другого: чтобы ты бесплатно полез в чужую кривую реальную задачу, в которую они сами уже долбятся месяцами, и решил её вместо них. И если ты не прыгаешь в эту яму с разбега, начинается привычное «ну значит, пользы нет».
Рафинированный Фома
Есть и более рафинированная версия того же самого спектакля. Такой человек не орёт про фейки. Он говорит вежливо: «Ну я же могу на Хабре написать любую фигню». Формально это выглядит как разговор о качестве источников, по сути – это всё тот же способ ничего не проверять самому. Следующий номер у него тоже стандартный: ссылка на некое правильное место, где всё должно быть опубликовано «по-настоящему» – не Хабр, а какой-нибудь «архив», не статья с результатами, а почти research paper с раскрытием параметров, внутренней кухни и ноу-хау. Очень удобная позиция: в качестве критерия доверия выставляется именно то, что вы не обязаны и не собираетесь отдавать бесплатно.
Хорошо, не веришь публикации – не верь. Вот доступ к стенду, ключ, возможность прогнать своё и получить собственный вывод, не опираясь ни на чей авторитет. Если человеку реально нужна технология, он начинает работать. Если перед тобой корпоративный охранник при шлагбауме, он сдувается. Одно дело – изображать требовательность, а совсем другое – самому взять инструмент и отвечать за результат, который он покажет.
Внутри компаний можно неделями говорить вроде бы «с рынком», а по факту не продвинуться ни на метр. Ты ещё не общаешься ни с носителем задачи, ни с человеком, который умеет принимать решение, ни даже с тем, кто готов проверить новое решение руками. Ты общаешься с неким промежуточным персонажем, который то ли охраняет свою должность, то ли своё самолюбие, а иногда и своё представление о том, как выглядит «настоящая технология». Но функция у него одна: задерживать движение – сознательно или бессознательно. Вряд ли его брали на работу для этого, просто он технически слаб, ограничен в кругозоре, слишком прост как визионер, и очень самолюбив.
Но есть и вдумчивые инженеры!
На этом фоне особенно заметны и приятны нормальные разговоры. Они, вопреки мифу, не обязательно мягче. Там тоже спрашивают про параметры, объёмы, скорость, форматы, интеграцию, видео, конвертер, инфраструктуру. Просто эти вопросы задаются не для того, чтобы поймать тебя на слове, а для того, чтобы понять, как встроить технологию в живую задачу. В таком разговоре человек не требует, чтобы ты сейчас же доказал вселенскую истину. Он спрашивает: “Если у нас огромный архив видео, как это вообще поедет? Если у вас есть конвертер, можно ли посмотреть, что он делает? С какими еще задачами справляется ваша RVS?”. И так далее.
Иногда диаметрально разные диалоги происходят в рамках одной компании. Один из показательных разговоров у нас состоялся недавно с инженером из крупной компании, в которой ранее состоялся «диалог» с «Фомой». В отличие от многих «витринных» созвонов, здесь сразу шла речь о конкретной производственной задаче: он расшарил экран, показал живые изображения с производства из их Excel/Google‑таблиц и сформулировал, какие именно дефекты и участки им важно видеть и анализировать. Дальше мы прошли по всей технической линии — от математической части (вплоть до Фурье) до вычислительных характеристик стенда и ограничений по данным.
Собеседник спокойно и последовательно задавал вопросы, не споря «на эмоциях», а выстраивая картину шаг за шагом: что даёт стенд, как мы работаем с распознаванием, что сегодня остаётся на стороне заказчика, в том числе разметка. Формулировка про «поиск финансов, чтобы попробовать» прозвучала уже после того, как мы совместно разобрали технологический сценарий, а не вместо него.
На отдельном витке обсуждения всплыл вопрос локализации решения. Мы честно сказали, что сейчас локальной инсталляции нет. В ответ последовала, по сути, идеальная реакция: «Нас более чем устраивает отправлять данные вам, если всё работает на вашем оборудовании в рамках нашего сотрудничества по IP». То есть человек исходил не из абстрактных требований «всё должно крутиться только у нас», а из того, что реально нужно для запуска пилота и защиты данных конкретного производства.
В чем разница между типами
Разница, как кажется, в первую очередь не в уровне интеллекта как таковом, а в позиции. Один собеседник пытается устроить маленький суд над самой идеей новой технологии, причём без риска для себя. Другой пытается понять, где именно эта технология может сработать, а где не сработает и что нужно для проверки. Первый делает вид, что защищает стандарты качества, хотя на деле он защищает собственную роль толкователя между компанией и реальностью. Второй просто работает.
Для одних стенд/технология – это инструмент квалификации: способ быстро понять, имеет ли подход право на дальнейшее движение в конкретной компании. Для других стенд – это почему-то повод немедленно потребовать бесплатную кастомную разработку под свой кейс, данные, форматы и под свой бардак. Потом эти же люди ещё любят сравнивать ваш квалификационный заход со своей внутренней моделью, которую они пилили полгода всем отделом, потратив на нее миллионы рублей/долларов (не своих, надо заметить) и делать вид, что сравнение честное. Особенно трогательно это выглядит в задачах, которые, например, вообще не COCO-подобны, но при этом почему-то должны были «сразу взлететь» на минимальном наборе данных ровно так, как хочется им – на стенде, который был разработан как раз сначала для COCO-датасета.
Если из всех этих разговоров вылезает хоть какой-то полезный вывод, то он довольно неприятный, хотя и тривиальный. Внутри компаний слишком много людей, которые встречают новую технологию не как инструмент, а как угрозу своему месту в цепочке. И пока не находишь нужного человека – того, кому действительно нужно решение, а не самоутверждение, – ты тратишь время не на переговоры, а на всяких умников с внутренней драмой.
ссылка на оригинал статьи https://habr.com/ru/articles/1039544/