ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ. История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности. Этим мы и успешно и занимаемся.

Отжиг металлов существовал тысячи лет до того, как первые учёные вообще посмотрели в сторону металлов и начали измерять там «энергетические уровни». Был кузнец, который нагревал заготовку, бил по ней, охлаждал, иногда случайно ронял в расплав кусок другого металла — так могли появляться целые технологические эпохи вроде бронзового века. Никакой науки в привычном смысле там не было, но были реальность и примеры, которые передавались «от отца к сыну» и работали.

Потом пришла наука и начала вводить понятия: энергия, температура, энтропия, спин и так далее. Эти понятия — абстракции; их не существует «в мире» как объектов, есть только явления, которые мы таким образом описываем. Температуру ещё можно как-то привязать к опыту — я чувствую, что предмет холодный или горячий, термометр показывает разницу, это сопоставимо с ощущением. Но чем дальше мы идём в сторону сложных конструкций, тем чаще сами абстракции начинают жить отдельной жизнью, отрываясь от первичных примеров.

Взять, например, любимую многими квантовую механику. Там существуют порой взаимоисключающие интерпретации (копенгагенская, многомировая интерпретация и другие), и чтобы объяснять их друг другу, физики возвращаются к парадоксам вроде кота Шрёдингера. При этом выводы иногда доходят до бесконечно ветвящихся вселенных, которые трудно соотнести с любой наблюдаемой реальностью. В результате у нас есть сложнейшая система абстракций, которая местами прекрасно работает в расчётах, но в какой-то момент становится настолько оторванной от примеров, что сами исследователи уже не могут прояснить, «что же на самом деле» за ними стоит.

Никакой «энергии» не существует

Абстракция в данном случае — это понятие, которое перестало регулярно и жёстко сверяться с реальными примерами. В радикальном варианте – любая математическая или физическая величина по умолчанию не подтверждена ничем, кроме того, как мы к ней привыкли и как её учат в институтах. Энергия, вероятность — это удобные конструкции, но не отдельные сущности в мире.

Есть явление — скажем, отжиг металла или бросание монетки. В одном случае мы определяем «ступени» и называем разницу энергией, в другом вводим понятие вероятности. Отжиг существует независимо от того, верим мы в «энергию» или нет. Бросок монеты тоже происходит, даже если никто не произносит слова «вероятность».

Проблема в том, что абстракции имеют склонность забывать, что они всего лишь описания. Они перестают каждый раз проверяться о примеры, начинают преподаваться как самостоятельные сущности: «есть джоули, есть спиновые эффекты, есть такие-то переходы» — и студенты заучивают это без связи с тем, как реально ведёт себя металл, вода или воздух. В результате появляются целые пласты физики и математики, где большинство участников уже не помнят, на каких конкретных наблюдаемых ситуациях эти понятия были когда-то выведены.

Хопфилд — редкий пример человека, который смог соединить абстракции физики твёрдого тела с очень конкретными примерами из нейробиологии

Хопфилд пришёл в область, где нейробиологи уже ввели множество собственных абстракций, сам сначала мало что понимал и просил всё расшифровывать. Но, разобравшись в живых примерах — как реально ведут себя клетки, как формируются белки, как работает сеть, — он смог сопоставить это со своими физическими моделями и построить нейронную сеть (как он тогда назвал свое изобретение — искать недосуг). (К удивлению, на Хабре мало статей, посвященных Хопфилду и отжигу металлов, в поиске ищется про Хопфилда например вот, про отжиг — немножко здесь; более подробные статьи можно найти на сторонних ресурсах запросто).

Вся его работа по сути заняла немного времени: от приглашения в нейробиологию до готовой идеи. Дольше всего он решал, как упаковать результат: писать ли несколько статей для разных аудиторий или одну, но абстрактную. В итоге ограничение журнала на пять страниц заставило его написать очень плотный, почти «хемингуэевский» текст. Ирония в том, что именно такая абстрактность вызвала массовый интерес — слишком много людей увидели там «своё», и поле резко ожило (здесь косвенная цитата самого нашего героя, которую он говорил с известной долей самоиронии).

Но тут снова сработал общий паттерн: созданные Хопфилдом абстракции стали жить отдельной жизнью. Их начали развивать, обобщать, наращивать математикой, не возвращаясь постоянно к тому, как реально устроены нейроны и ткани. В какой-то момент стало понятно, что идеальный многослойный перцептрон с полными связями просто не работает практически: слишком много вычислений, чтобы реализовать это в железе. Хинтон добавил свои ограничения (но относительно первоначального биологического явления это скорее искажения), чтобы схема заработала, и сегодня мы живём в мире ИИ, который основан на сильно модифицированных абстракциях, лишь отдалённо связанных с исходным биологическим примером – нейронами мозга.

Свои «элементарные частицы» реальности в зрении

Теперь вернёмся к зрительному восприятию. Если отбросить всё, что мы думаем, что о нём знаем (что там есть пиксели, карты признаков и т.д.), можно предположить, что у самой системы зрения есть собственные «элементарные частицы реальности» — свои базовые единицы, через которые она оценивает мир. Не пиксели и не привычные математические объекты, а какие-то другие элементы, известные или, возможно, нам пока неизвестные и на которые мы не обращаем внимание.

То есть зрение может считать «правильными» совсем другие фрагменты мира, не совпадающие с нашими техническими форматами. TAPe в этом смысле — тоже абстракция: полезная, но всё равно наша конструкция, а не гарантированное отражение того, как «внутри» устроена оценка реальности. Если мы действительно хотим понять, как зрение работает, полезно хотя бы мысленно заблокировать хотя бы какую-то часть привычного знания и разрешить себе допустить, что базовые элементы совсем другие.

Зрительное восприятие в таком подходе — не просто поток картинок, а активный вычислительный аппарат, который постоянно что-то считает, сравнивает и пересобирает. Он работает всегда, в фоне, без выключения, адаптируется ежесекундно, каждый момент времени либо подтверждая текущую картину мира, либо тихо её обновляя. И нам логичнее пользоваться плодами его работы — смотреть на то, какие структуры и какая «письменность» растут на выходе этой системы, какие знаки и формы оказываются устойчивыми в культуре и индивидуальном опыте.

Зрение как постоянно проверяемый движок абстракций

Зрительное восприятие, по разным оценкам, даёт человеку 90–95% информации об окружающем мире. Оно, вероятно, основано на очень быстрых процессах (в текущей картине — на фотонах), которых слишком много, чтобы их вообще адекватно пересчитать. В отличие от этого, звук и запах описываются более медленными, массивными частицами, которые просто физически не могут летать к нам/в нас с такой же скоростью.

Главное в том, что зрение работает непрерывно и постоянно проходит «тест на прочность». Я смотрю в окно, вижу детей на футбольной площадке, сравниваю это с тем, что было минуту, час или день назад, отмечаю появившиеся тёмные облака и делаю вывод: «скорее всего, будет дождь». За этим простым выводом стоит огромное количество обработанной информации, которую зрительная система пролопатила автоматически.

Можно предположить, что культура письменности естественного языка тоже продукт этой многовековой проверки. Люди выбрасывали неудобные элементы, оставляли устойчивые, искали формы, которые зрительной системе проще всего распознавать и стабильно воспроизводить. Поэтому грех не опираться на зрительное восприятие, которое, во‑первых, уже «сделано» и оттестировано эволюцией, а во‑вторых, ежесекундно проходит проверку реальностью.

На этом фоне странно внимательно наблюдать за отжигом металлов и биологическим явлением, о котором говорил Хопфилд (речь о белках, если что) и строить на этом ИИ, но практически не наблюдать за зрительным восприятием как за главным поставщиком данных и работающим примером эффективной обработки огромных данных, поступающих из реальности для построения конструктивной модели мира конкретного индивидуума без тысяч GPU.

Что индустрия ИИ взяла из зрения — и почему этого мало и криво

Формально мы что-то взяли из зрительного восприятия: у нас есть пиксели, компьютерное зрение, CNN, куча архитектур, вдохновлённых зрительной корой. Но по факту мы взяли очень упрощённые, удобные для математики абстракции, которые не отражают реальных принципов. Вместо того чтобы пытаться понять, какие именно элементы реальности «считает правильными» зрительная система, мы заранее решили, что это пиксели, фильтры, свёртки и прочие выдуманные и выдумываемые конструкции.

Здесь можно провести аналогию с письменностью. За тысячелетия люди, не имея никакой нейробиологии, экспериментально пришли к наборам знаков, которые хорошо ложатся на зрительную систему. В графической основе письменности, которая потом проявилась в “визуальных” элементах алфавата какие-то элементы отбрасывались, какие-то оставались, потому что так было удобнее читать и писать. Можно представить себе, что где-то сейчас носители какого-нибудь письма решают, что наклонная «влево» не нужна, достаточно «вправо», а потом через поколение оказывается, что всё наоборот.

С ИИ всё наоборот: мы сначала придумываем абстракции (пиксели, блоки, активации) и только потом пытаемся подогнать под них восприятие. Мы фактически берём результаты работы зрительной системы — то, что выводится на уровень «я вижу детей во дворе, вижу дом, вижу облака» — и заменяем их на сетку искусственных элементов, историю которых мы придумали сами. При этом мало кто реально изучает, как устроено то «внутреннее пространство», в котором работают наши природные алгоритмы зрительного восприятия.

Где ИИ утыкается в ограничения (и сразу же их преодолевает еще тысячью GPU)

Современный ИИ построен на абстракциях, которые плохо соответствуют реальной работе мозга. Нейроны в моделях делаются одинаковыми, двоичными или непрерывными, но всё равно сильно упрощёнными; между ними проводят одинаковые связи, используют все те же понятия «бит» и «байт» информации. В биологическом мозге ни нейроны, ни связи, ни представление информации на это не похожи.

Каждый новый уровень абстракции — более глубокие сети, более сложные схемы, дополнительные трюки — стоит астрономических затрат энергии. Чтобы натренировать большую модель, нужно огромное количество вычислений и энергии, а в итоге она всё равно решает задачи на уровне поиска, выделения, сравнения, сопоставления шаблонов и статистики.

Более того, текущие абстракции ИИ вообще не затрагивают хоть какие-то основы и/или законы мышления и уж тем более сознания. Никто не знает, что такое сознание, как его описывать и можно ли вообще воспроизвести в рамках нынешних моделей. Если базовые абстракции выбраны неверно, существует ненулевая вероятность, что задача «настоящего ИИ» в текущей постановке просто неразрешима. Мы можем бесконечно улучшать статистические модели, но не приблизиться к тем качествам, которые считаем или можем назвать «мышлением».

TAPe работает с реальным восприятием, а не с пикселями – и поэтому выигрывает

В наших работах и исследованиях мы относимся к зрительному восприятию не как к камере, а как к активному вычислительному аппарату, и создаем технологии и модели, которая работают в этой логике, а не по пикселям и свёрткам. И именно поэтому нам удается добиться выдающихся результатов (писали о них на Хабре здесь, здесь, и так далее).

Примерно все знают, что глаз — это часть мозга, зрительная система — это не внешний датчик с сеткой пикселей, а фрагмент нервной ткани, где восприятие и вычисление с самого начала переплетены. Тогда бессмысленно считать пиксель базовым элементом. Пиксель удобен для матрицы в камере и для ныне используемой математики, но это не значит, что он хоть как‑то соответствует тому, как мир разбирает на части живое восприятие. На уровне биологии куда более логично считать первичными объектами хотя бы точку и линию, наклон и т.д., а также их организованные сочетания. У человека есть врождённая чувствительность к линиям разной ориентации — и это гораздо больше похоже на настоящий «алфавит» зрения, чем квадратные клеточки на матрице.

TAPe исходит именно из этого: мир для системы восприятия — это не набор пикселей, а конфигурации простейших элементов и паттернов, которые из них собираются. Вместо бесконечной сетки чисел вводится ограниченный набор базовых элементов и правила их комбинации. Из этих комбинаций строятся паттерны — компактные, структурированные описания образов, которые играют роль тех самых элементарных частиц реальности, о которых шла речь раньше. При этом изображение в таком подходе рассматривается не как поле независимых величин, а как целостный объект: обрабатывается не по кусочкам, не скользящими окнами, а целиком, за один логический шаг, в рамках одной структурной операции.

Если дальше смотреть не только на статичную картинку, а на видео, идея становится ещё нагляднее. Вместо того чтобы хранить и гонять по сети каждую “рамку” целиком, можно для каждой последовательности кадров построить компактный «отпечаток» — индекс, который кодирует её визуальные особенности в виде одного паттерна. Такой отпечаток стабилен к типичным искажениям — шуму, изменению яркости и контраста, масштабированию, небольшим смещениям, артефактам сжатия (речь не идет о фингерпринтах, вотермарках, хэшах и т.д., все это не связанно с реальным процессом зрительного восприятия). При этом по размеру он может занимать байты на кадр, а не мегабайты. Тогда поиск нужной минуты в тысячах лет, да и вообще видеоархиве любого размера превращается не в перебор гигантского массива сырых данных, а в сравнение компактных паттернов на обычном процессоре за миллисекунды. (Именно поэтому мы и можем себе позволить создать первый и единственный в мире поиск видео по видео).

Всё это принципиально отличается от того, как устроен современный ИИ вокруг картинок и видео. Там исходной единицей долгое время был пиксель, потом — патч, потом — всё более сложные абстрактные признаки, наслоённые друг на друга. Каждый новый слой абстракции требует всё больше вычислений и энергии, именно потому что все дальше уводит модель от реального устройства восприятия, обладающего гораздо более эффективным, скажем так, математическим аппаратом. Мы называем его языкоматематикой.

У зрительной системы уже есть свои проверенные эволюцией элементы превращения реальности в информацию и механизмы дальнейшей работы с ними, и именно они, а не инженерные удобства, должны лежать в основе вычислительной логики. И именно их мы и используем в наших исследованиях и технологиях.

И на свой страх и риск приглашаем через мягкий CTA: если вы устали от ИИ, который хорошо выглядит на слайдах, но стоит дорого и ест кучу ресурсов, или тоже видите и понимаете, что у текущих успехов ИИ слишком высока цена, или вам просто интересно узнать о принципиально ином подходе к обработке информации – приходите смотреть на мир через TAPe:) Запросите доступ к стенду и посмотрите, что даёт подход, опирающийся не на пиксели, а на реальное зрительное восприятие.

ссылка на оригинал статьи https://habr.com/ru/articles/1036326/