Quest For The Holy Memex: Часть 3 или обзорная

1. Mundaneum Поля Отле

Прежде чем начать самому решать проблему информационных перегрузок, сначала нужно было поискать, пробовал ли ее кто-то решить на практике за все это время.

Из личного опыта вспоминались только обычные библиотечные указатели по алфавиту, которые мягко говоря проблему не решали от слова совсем. Если проблема давняя, и на нее уже давно обращали внимание, то должно уже было быть хоть какое-то решение, так почему же мы до сих пор используем только эти примитивные библиотечные указатели? Ладно, есть еще Google, но у него свои ограничения.

У меня не было задачи найти и изучить ВСЕ подходы к организации и работе с большими объемами информации (эта тема потянет на полноценное научное исследование), также я не буду рассматривать сугубо теоретические концепции (как например “Мировой мозг” Герберта Уэллса), остановлюсь только на самых интересных по моему мнению проектах, которые пытались сделать практическую реализацию, хотя бы в виде спецификаций.

Самый ранний проект, что я нашел оказался примерно 1910 г. и назывался Mundaneum за авторством Поля Отле — похоже, что это первая система индексации, которая ввела понятие ссылок для связи между документами. Отле хотел «преодолеть границы книг», чтобы вскрыть «суть, источники и заключения», скрытые в них. Похоже, что во времена Отле понятие связанных документов было настолько новым, что для этого просто не было слова, пока он не придумал использовать слово «ссылки». А всю систему он представлял как «réseau», т.е. «сеть» человеческих знаний. Так же он первый ввел понятие “документа” — как носитель любой информации, куда входили не только книги, но и карты, фото, музыка, патенты итд.

Отле пытался сделать хранилище всех знаний мира под названием Mundaneum и машину для доступа к ним Mondotheque (которую часто сравнивают с Мемексом), но похоже, что принципиальная разница была в том, что эта система была сильно централизованной (по типу Википедии), и он скорее решал проблему только хранения и поиска информации. Был даже построен прототип системы, который проработал несколько десятков лет (!) в Брюсселе.

Основы концепции Mundaneum:

Универсальная десятичная классификация (UDC): Отле развил систему Дьюи в фасетную классификацию, где каждый документ мог относиться к нескольким категориям одновременно. Например один документ о “промышленном дизайне в Бразилии” индексировался по трём фасетам — продукция, дизайн и география. Для 1910 года это был радикальный отход от иерархических систем где книга принадлежала только одной категории. По-видимому, некий прообраз тэгов.

Принцип монографических единиц: индексация велась не на уровне целых книг, а на уровне отдельных идей, фактов и аргументов внутри них. Вместо одной карточки на книгу создавалось несколько — каждая описывала конкретный аспект содержания. Это позволяло находить конкретные мысли внутри больших произведений, даже если название книги не соответствовало запросу. Предшественник современной семантической индексации.

Сеть связанных документов через «ссылки»: cамая новаторская часть. Когда пользователь находил одну релевантную карточку, система предлагала карточки-ссылки на смежные и противоречивые источники. Эти ссылки несли семантический вес — могли указывать «подтверждает», «опровергает» или «дополняет». Прямой предвестник семантического веба.

Фундаментальные проблемы

Чрезмерная централизация: вся система существовала в одном большом физическом здании с миллионами карточек и сотнями сотрудников. Система становилась крайне уязвимой — зависела от одного здания, одного коллектива, одной логистики, что в результате и привело к краху во время Второй Мировой.

Невозможность масштабирования: процесс создания сети знаний был построен на ручном труде. Индексация, классификация, создание ссылок — всё выполнялось вручную специалистами. Этот ручной процесс является фундаментальным ограничением. Он не может конкурировать со скоростью, необходимой для индексации огромных и постоянно меняющихся массивов данных.

Комментарий

Проект на самом деле очень интересный. Мало того, что он реально существовал десятки лет, так он еще использовал довольно сложную классификацию, и возможно впервые представил знания в виде связанной сети с ассоциативными ссылками. Тут тебе и отход от строго иерархической классификации к фасетной (один документ может принадлежать нескольким темам), похоже еще и разбиение текстов с выделением фактов (монографических единиц?), разные типы ссылок. Честно говоря, я так и не посмотрел оригинальные труды, но я до них обязательно доберусь.

Мунданеум выглядит прорывным проектом даже на фоне нынешних процессов работы с информацией, и это больше 100 лет спустя. Хотя у него были фундаментальные технические ограничения, но идеи и мечта Отле все еще актуальны, и надеюсь найдут достойное воплощение на новом уровне.

2. Memex Ванневара Буша

Иногда одна публикация кардинально меняет не только восприятие какой-то проблемы — она на долгие годы задает новые направления и влияет на сами подходы к ее решению. Статья Ванневара Буша «As We May Think» («Как мы можем думать»), опубликованная в The Atlantic в июле 1945 года, стала именно таким текстом, который вдохновил множество талантливых людей и по сути во многом определил современный интернет.

Буш писал статью в конце Второй мировой войны, когда наблюдал беспрецедентный рост объёма научных публикаций (он был одним из организаторов “Проекта Манхеттен”). Его беспокоило то, что он называл «растущей горой исследований»:

Исследователь ошеломлен находками и заключениями тысяч других работников — заключениями, даже ухватить которые у него нет времени, не то что запомнить, по мере их появления. Но специализация становится все более необходимой для прогресса, и усилия перекинуть мост между дисциплинами — соответственно все более поверхностными.

Думаю уже очевидно, что сегодня мы тонем в информации ещё сильнее, чем коллеги Буша в 1945-м. Но про проблему писали и до него, и после него, но вот его концепт решения, во многом до сих пор остается уникальным.

Ключевой инсайт Буша заключался в том, что существующие системы организации знаний работают против человеческой природы. Библиотечные каталоги, алфавитные указатели, тематические рубрикаторы — всё это требует от человека адаптировать своё мышление к внешней структуре. Буш предложил обратное: технология должна работать согласно внутренним законам человеческого разума.

Выбор по ассоциации, вместо индексации, еще может быть механизирован. Таким образом, нельзя надеяться сравняться скоростью и гибкостью с тем как разум следует по ассоциативному пути, но должно быть возможно решительно превзойти разум в отношении стабильности и точности вещей, поднятых из хранилища.

Человеческая память работает ассоциативно: одно понятие естественно вызывает другое, связанное по смыслу, контексту или личному опыту. Этот процесс быстр и гибок, но нестабилен — мы теряем следы мыслей, забываем связи. Мемекс должен был компенсировать недостатки человеческой памяти за счёт надёжности машины, сохранив при этом ассоциативную гибкость. Такой подход подразумевал смещение акцента с хранилища готовых ответов на инструмент для самостоятельного исследования и создания знаний.

Да, в некотором виде это было сделано в уже работавшем проекте Поля Отле в Европе (который как раз примерно в это время был разгромлен окончательно, и неясно, насколько он был известен в США), но идеи Отле после его смерти оказались преданы забвению на долгие годы, а вот концепция Memex Буша, который пришел к ней с другой стороны — как личному архиву — напротив оказалась очень влиятельной.

Основы концепции Memex (MEMory EXpander/EXtender/indEX)

Персональный архив: устройство, в котором человек хранит все свои книги, записи и сообщения в виде механизированного рабочего места с микропленками (топовые технологии того времени). Что-то вроде внешнего жёсткого диска для разума, лет за 40 до появления первого персонального ПК.

Ассоциативные ссылки: возможность создавать связи между любыми фрагментами информации по собственному усмотрению — прообраз гипертекста.

Тропы (trails): вот это до сих пор уникальная фича. Это сохранённые пользовательские тропинки связывающие разные сущности и понятия, которые фиксируют ход мыслей исследователя. Не просто связь между документами, а цепочка выводов по шагам с комментариями и пометками, которую можно воспроизвести позже или передать другому человеку. Нечто вроде журнала исследователя — факты, наблюдения, выводы. При необходимости можно углубиться в детали, дойти до первоисточника, проверить обоснованность выводов.

Продвинутый пользовательский интерфейс: включая голосовое управление и фотокамеру на лбу для сохранения видимой информации. Такой стимпанк привет современным очкам с камерой и микрофоном, 80-летней давности.

Большинство проектов механических и электрических машин того времени фокусировались на ускорении вычислений или автоматизации расчётов. Буш первым сформулировал задачу иначе: усиление человеческого интеллекта через изменение способа работы с информацией.

Машина должна была хранить все книги, записи и сообщения, которыми владел пользователь, и предоставлять к ним доступ с невиданной ранее скоростью и гибкостью. Это позволило бы человеку освободить своё сознание от необходимости запоминать факты, цифры и детали. Вместо этого ум мог бы сосредоточиться на высших формах деятельности: анализе, синтезе, выдвижении гипотез и решении сложных проблем.

Работая с тропами (trails), человек начинает неосознанно структурировать свои ассоциативные связи, делать их явными и управляемыми, по сути автоматическая саморефлексия. Такие тропы не были бы статичными текстами; они представляли бы собой живые, динамические карты знаний, отражающие различные точки зрения и мыслительные пути. Имея возможность проследить каждую тропу, которая ведёт к выводу, какие именно факты и данные легли в его основу, мы можем гарантировать достоверность и проверяемость знаний, создаваемых с помощью Мемекса.

Мемекс должен был стать не просто хранилищем, а активным участником мыслительного процесса, формируя ту самую «собирательную память», которая образуется из личного опыта использования информации.

Если просуммировать, то новизна проявлялась в нескольких аспектах:

Сдвиг от системы хранения к процессу мышления: Мемекс — не хранилище готовых ответов, а пространство для исследования, где информация живёт и взаимодействует, средство для качественного изменения процесса познания.

Субъективность организации знаний: два разных человека, работая с одними документами, создадут разные сети троп. Но все они будут воспроизводимы и легко доступны для сравнения и устранения расхождений. Сейчас, если из-за различий в фактах или их трактовках, выводы отличаются кардинально, то свести позиции будет практически невозможно. При таком же подходе с тропами — было бы видно локальные расхождения в фактах или трактовках, и свести такие позиции будет значительно проще.

Распространение экспертизы через тропы: Буш предполагал в будущем появление «искателей путей» — людей, которые будут находить удовольствие в прокладывании полезных маршрутов через массивы записей. Наследие учёного будет включать не только его финальные публикации, но и «стропила» — тропы с самими размышлениями, по которым он до них дошёл. Этими тропами можно было бы обмениваться, сравнивать их, использовать как основу для поиска других путей (branching).

Комментарий

Сам Мемекс никогда не существовал как физическое устройство, но идеи Буша стали настоящим «божественным откровением» для пионеров компьютерной эры, которые увидели в Мемексе не просто теоретическую модель, а манифест для будущих исследований:

Дуглас Энгельбарт прямо называл статью Буша источником своего вдохновения. Его система NLS, продемонстрированная в 1968 году на «The Mother of All Demos», была попыткой реализовать Мемекс с акцентом на совместную работу. Также известен как создатель компьютерной мышки (как раз её протип был показан на “Матери всех демок”).

Тед Нельсон ввёл термин «гипертекст» в 1965 году, развивая идеи ассоциативных связей. Автор проекта Xanadu.
Тим Бернерс-Ли воплотил мечту о глобальной сети ассоциативных связей, хотя и в более децентрализованной форме, как Всемирную паутину (WWW).

Проблема, которую сформулировал Буш в 1945 году, все еще остаётся актуальной. И на самом деле его главная идея — изменение подхода к организации знаний — по сей день не решена на должном уровне. Сам же Memex похоже был первой проработанной концепцией такого персонального устройства для работы и обмена с накопленными личными знаниями.

Для меня эта концепция перевернула взгляды на инструменты работы с информацией: до нее я смотрел на задачу как просто написать еще одну программку, после знакомства с ней — как изменить само наше взаимодействие с информацией.

3. Zettelkasten Никласа Лумана

В 1952 году Никлас Луман начал создавать Zettelkasten (буквально “ящик для заметок”, да, бумажных карточек, старая школа) не только для хранения информации, а именно для генерации новых идей через связи между заметками. К моменту его смерти в 1998 году основная картотека насчитывала около 90 000 карточек. Эта система позволила ему написать более 70 книг и 400 научных статей. Правда, есть версии и более раннего происхождения, но, возможно, в более ранних случаях речь шла просто о бумажных карточках. Ну и в отличие от системы Отле, Zettelkasten был уже заточен для индивидуальной работы с накопленными знаниями.

Луман описывает Zettelkasten с нескольких сторон. Иногда он называл его партнёром для беседы или второй памятью, кибернетической системой, жвачкой, а иногда отстойником

Сложно говорить о самом методе, так как похоже, что сам Луман не оставил подробной инструкции по его использованию, а популяризаторы “творчески переосмыслили” его наследие, но можно попробовать выделить несколько основных моментов:

Иерархическая нумерация: Каждая карточка имела свой уникальный номер, и сами карточки были сгруппированы по темам (по крайней мере на верхнем уровне, как отправные точки). Можно было добавлять карточку в нужную тему, в том числе вставлять между другими, используя комплексные индексы типа 2.2b2 (2-я тема, 2-я карточка, дополнительная ветка b, и в ней вторая карточка — получаем ветку на ветке на ветке…), но были и индексы вида 21/3d27fb12g38 (есть желающие поискать эту бумажную карточку в ящике?).

Ссылки: Между карточками были прямые ссылки, что позволяло рассматривать несколько идей совместно (простой граф из заметок).

Реестр ключевых слов: Вроде алфавитного указателя в конце книги, неполный, но помогает быстрее найти карточки с нужной темой.

Постоянное переформулирование: Луман ежедневно перечитывал карточки и переформулировал идеи своими словами.

Эффект размера: Луман писал, что ведение заметок занимало больше времени, чем написание книг, и система начинала работать только при большом количестве карточек.

Можно уже даже посмотреть на оригинальные карточки в оцифрованном виде, но нужно быть готовым, что первые карточки могут не следовать общему методу, похоже, систему приходилось дорабатывать по ходу движения.

Комментарий

Честно говоря, я не использовал данный метод, но сейчас он довольно популярен для использования с системами типа Obsidian. Xотя, судя по отзывам, у людей там часто возникают с ним проблемы из-за плоской структуры.

Похоже, что Zettelkasten в основном применяется для поиска разных инсайтов в связанных карточках.

4. WWW Тима Бернерс-Ли vs Xanadu Теда Нельсона

В начале 1960-х Тед Нельсон, знакомый со статьей Ванневара Буша о Мемексе, начал работу над проектом Ксанаду. Как-то я его пропустил на этапе анализа, наткнулся когда уже сама концепция была готова и просто проверял ссылки для статьи. В общем, это один из самых известных долгостроев в сфере ПО, но в отличие от популярного мнения, все же не полный фейл.

Во-первых, автор в процессе как раз и ввел термин «гипертекст» и “гипермедиа”, во-вторых, все же у него получилось собрать более-менее рабочий proof of concept, хоть в результате это и заняло пол-жизни. Но главное, что Нельсон подошел к задаче построения системы серьезно — подумал, собрал требования, спроектировал саму систему, стал делать прототип.

Он сформулировал семнадцать правил для своей системы — требования, которые описывали не только техническую архитектуру, но и социальные механизмы работы с информацией.

Первоначальные 17 правил:

Каждый сервер Ксанаду уникальный, и надежно идентифицирован.

Каждый сервер Ксанаду может работать независимо или в составе сети.

Каждый пользователь уникален и надежно идентифицирован.

Каждый пользователь может искать, получать, создавать и сохранять документы.

Каждый документ может состоять из любого количества частей, которые могут содержать данные разных типов.

Каждый документ может содержать ссылки любого типа, включая виртуальные копии (“вставки/включения/трансклюзию”) на любой другой документ в системе, доступный его владельцу.

Ссылки видны и могут быть использованы с любого конца.

Разрешения ссылаться на документ явно даны самим фактом его публикации.

Каждый документ может содержать механизмы вознаграждения (роялти) любого желаемого уровня детализации для обеспечения оплаты за доступ к любой части документа, включая виртуальные копии (“включения”) любой части этого документа.

Каждый документ уникально и надежно идентифицирован.

Каждый документ может иметь надежный контроль доступа.

Каждый документ может быть быстро найден, сохранен и получен без необходимости пользователя знать где он физически расположен.

Каждый документ автоматически переносится на физический носитель, наиболее подходящий с учетом частоты доступа из любого места.

Каждый документ автоматически сохранен в нескольких копиях, чтобы обеспечить доступность даже в случае каких-то сбоев.

Каждый провайдер сервисов Ксанаду может сам решать в каком объеме собирать оплату с пользователей за хранение, получение и опубликование документов.

Каждая транзакция безопасна и проверяема только участниками этой транзакции.

Клиент-серверный протокол общения Ксанаду открытый, и опубликованный стандарт. Разработка и интеграция решений со стороны третьих лиц поощряется.

В 1989 году молодой физик из CERN Тим Бернерс-Ли, так и не дождавшись идеального проекта Xanadu (всего 30 лет прошло, не мог еще 30 подождать, чудак), тоже столкнулся с проблемой обмена информацией и знаниями. Ему нужна была простая и надежная децентрализованная гипертекстовая система для связи разнородной информации, и нужна была срочно. Высокая текучесть кадров в CERN (кто бы мог подумать) и фрагментированность данных приводили к тому, что технические спецификации из прошлых проектов терялись, потому что их невозможно было эффективно документировать. Он взял идею гипертекста, наложил на уже существующий на тот момент интернет (TCP/IP) и предложил три стандарта: HTTP, URL, HTML. Ключевым стало решение CERN от 30 апреля 1993 года — предоставить технологию всем желающим бесплатно, без патентных ограничений. Это запустило революцию WWW и придало интернету современный вид.

Но мягко говоря, результат получился проблемный — по некоторым данным 2 из 3 ссылок сломаны, сами ссылки ведут на изменяемый контент, их легко подменить, javascript, война браузерных стандартов, необязательность ссылок на источник, опять javascript, миллионы уязвимостей, централизация, отсутствие версионности и так далее. И в итоге пространство, задуманное как децентрализованная сеть с равными узлами, оказалось захвачено корпорациями так, что сам Бернерс-Ли сегодня агитирует за возврат к децентрализованной сети и работает над проектом Solid, который должен вернуть пользователям контроль над их информацией.

Тед Нельсон очень критично высказывался о WWW и заявлял буквально, что Ксанаду был попыткой сделать правильный интернет, избежав ошибок всемирной паутины.

Комментарий

Первые четырнадцать пунктов Xanadu вполне логичные, я тоже независимо к ним пришел. Даже девятый пункт про роялти, который часто вызывает критику, по сути просто кусок требований к ссылке на источник (data provenance). Задача, которая сегодня актуальнее, чем когда-либо. Хотя в самих требованиях есть явное смешение доменов, да и монетизацию надо было явно выносить отдельно, просто сделав упор на сохранение источников данных.

Можно иронизировать над идеальным долгостроем Нельсона. Но то, что мы получили вместо него (WWW) — создает очень много проблем, и то, что за 35 лет мы не сделали ничего лучше, на самом деле довольно печально. То, что и сам Бернерс-Ли серьезно критикует свое же детище, говорит о том, что, возможно, все же стоит начать заново, учитывая не только наработки Web 3.0, но и наработки Xanadu. Возможно все же между этими крайностями (думать полвека и не думать совсем) должен был быть какой-то средний вариант.

Лично я думаю, что именно Тед Нельсон будет смеяться последним.

5. CATALYST Дайан Уэбб

Можно сказать эксклюзив: в 1989 году (кстати год появления спеки WWW) ЦРУ формулирует требования к системе CATALYST (Computer-Aided Tools for Analysis of Science and Technology), для всеохватывающего (all-sources) изучения научных и технических новинок, которую можно использовать и в приложении к другим аналитическим задачам.

Тут надо немного пояснить по ссылке — это блог известного энтузиаста и популяризатора OSINT и HUMINT Роберта Стили, который организовывал разведку по открытым источникам у американских морпехов и служил аналитиком в ЦРУ (проверить сложно, но похоже что так и было). Но на первый, и даже на второй и третий взгляд выглядит как гнездо конспиролога высшего уровня посвящения (ну вы знаете, всякие теории заговора, как например, что сообщество элитных педофилов контролирует власть с помощью шантажа… эх, а помните, были времена, когда дальше можно было не слушать…).

Но вернемся к CATALYST — система спроектирована как набор отдельных компонент, интегрированных между собой и распределенных по 3 уровням:

уровень сбора и автоматической обработки данных
уровень ручной обработки (анализа) данных и совместной работы
уровень создания отчетов.

Некоторые отрывки из спеки:

В аналитическое вычислительное окружение будут включены инструменты аналитиков для управления данными и идеями, оценка и проверка гипотез, выявление паттернов в данных, и предсказание дальнейшего развития. Аналитик должен иметь прямой и быстрый доступ к любому инструменту или фрагменту данных, содержащихся в системе, включая справочные базы данных, накопленные ранее знания, модели и симуляторы. Наш опыт показывает, что аналитику нужны такие возможности постоянно в процессе анализа, начиная с подготовительного этапа исследовательского процесса, до подготовки финального отчета.

… Инструменты, из которых состоит автоматизированная пирамида анализа (на рисунке), должны поддерживать хаотичную реальность анализа, позволяя аналитику прыгать вперед и назад между инструментами, следуя за цепочками мыслей, по мере их появления. Чтобы это работало, аналитик должен быть способен легко передавать данные и идеи от одного инструмента к другому. Далее, аналитик должен иметь возможность восстановить весь свой путь — или проследовать по пути другого аналитика — через систему от законченного отчета, к созданным аналитиком аргументам, далее к созданным компьютером гипотезам, и наконец до самих оригинальных данных.

… Система гипер-медиа позволит аналитику создать и модифицировать сложную сеть данных, гипотез и отношений между ними. Аналитик сможет хранить идеи и данные, относящиеся к ним, в виде отдельных сущностей, которые в любой момент могут быть организованы в более структурированные доказательства, которые лягут в основу отчета. Более того, аналитик сможет построить альтернативные сценарии, или рамки, и может подтверждать их или опровергать, в зависимости от полученной в дальнейшем информации. Такой инструмент также сможет позволить более сфокусированное обсуждение идей среди аналитиков и управленцев, относительно состояния и сути исследуемых документов.

Требования для среды заметок:

Аналитик должен иметь возможность легко и быстро включать информацию из системы в аналитические заметки.

Должна быть явная ссылка на исходные документы.

Аналитик должен иметь возможность быстро визуализировать структуру сети записей и реорганизовать ее при необходимости.

Среда заметок должна быть тесно интегрирована с инструментами финальной отчетности на следующем уровне пирамиды Каталиста.

В целом вырисовывалась интересная система, в которой был фокус на поддержку работы аналитика с учетом нелинейных аналитических процессов и был заложен ряд очень продвинутых фич, многие из которых было практически невозможно реализовать в то время:

Интеграция всех источников: Требование объединять мультиформатные и многоязычные данные в едином пространстве опережало доступные технологии обработки естественного языка и машинного перевода.

Поддержка нелинейного мышления: Отказ от линейных рабочих процессов в пользу хаотичной реальности анализа, где аналитик перемещается между инструментами по мере возникновения идей.

Модульность: Система состояла из множества кубиков — процессов, каждый из которых делал свое дело (сама идея из Unix pipes правда, но до микросервисов было еще далеко).

Локальность: Предполагалась локально-удалённая вычислительная модель. Работа велась на личной станции, тяжёлые задачи выполнялись на серверах.

Совместная работа с контролем версий: Анализ рассматривался как командная работа с механизмами отслеживания изменений.

Прослеживаемость до источника: Трассировки выводов к источникам заложил основы воспроизводимости анализа.

Гипермедиа для аналитики: Концепция связывания данных, гипотез и аргументов в единую сеть предвосхитила современные системы управления знаниями.

Предиктивная и прескриптивная аналитика: Переход от описания прошлого к прогнозированию будущего и выработке рекомендаций как лучше действовать.

Система предоставляла аналитику прямой доступ ко всем инструментам и данным без промежуточных барьеров. Гипермедиа-среда позволяла хранить идеи и данные как отдельные сущности, связывать их между собой и организовывать в доказательства по мере необходимости.

Аналитик мог строить альтернативные сценарии, подтверждать или опровергать их новой информацией. Требование полной прослеживаемости означало возможность пройти от любого вывода в отчёте обратно к исходным документам через цепочку гипотез и аргументов.

Среда заметок интегрировалась с инструментами отчётности. Аналитик быстро включал информацию из системы в свои записи с явными ссылками на источники, визуализировал структуру сети записей и реорганизовывал её при необходимости.

Комментарий

В общем до сих пор впечатляющий список фич, в том числе прослеживается влияние Memex в некоторых местах. Но по утверждению того же Роберта Стили, такую систему они так и не получили, и это с учетом Палантира, хотя как раз Палантир явно шел в этом же направлении.

Да, и хочется еще пару слов написать про Стили. Его интересы одним OSINT не ограничивались, он продвигал и другие концепции. Например предлагал объединить движения Open Source Code, Open Source Electronics, Open Source Intelligence (включая например обязанность(!) граждан следить за тем, что вытворяет их правительство) и даже всякие опен соурс технологии по выращиванию еды (это без одноразовых семян, тракторов по подписке и прочих чудес нового мира) — все это собрать под общую парадигму максимальной открытости — Open Source Everything, то есть стараться открывать “исходники” всего, не только кода.

Также именно в плане разведки он делает упор на ущербность ограниченного применения разведки только для изучения противника, причем обычно только уязвимостей, и предлагает цельный (холистический) подход к изучению всего происходящего в мире (ну и в своей стране), в том числе с учетом долгих (long-term) последствий для среды и человечества.

6. Palantir Питера Тиля и Алекса Карпа

2003 год — известный инвестор Питер Тиль из “мафии PayPal” основывает компанию Palantir под руководством доктора Алекса Карпа, которая помогает “unlikely heroes” (хоббитсам-ботаникам из Кремниевой Долины) “спасать Шир” с помощью Всевидящего Ока — Палантира (которые, как мы знаем, работали исключительно на добро по книге, и совсем ничего не искажали). Огромные инвестиции от светоносцев из ЦРУ прилагаются. Без комментариев.

Palantir — это платформа для управления данными и принятия решений, которая позиционируется как «центральная операционная система организации». Основная проблема, которую она решает — фрагментация данных. Palantir создаёт единый слой поверх всех источников данных, где информация представляется не в виде таблиц, а в виде объектов реального мира — людей, организаций, транзакций, активов, событий. Эти объекты связаны между собой семантическими связями, что позволяет аналитику работать с данными на языке бизнеса, а не на языке баз данных.

Как я понял (я не особо даже изучал документацию, скорее посмотрел пользовательские сценарии и интерфейс) — это такое универсальное гибридное хранилище данных (data lake + data warehouse) с упором на онтологию, к которому прикрутили продвинутую аналитику, ну сейчас еще и ИИ.

Да, сейчас появилось много BI инструментов и дата лейком никого не удивишь, но и 10 лет назад это впечатляло. Ну и все это время они гоняли своих хоббитов в очень жесткой потогонке (по-видимому с урук-хаями в виде погонщиков).

В сети можно найти много информации, включая видеодемонстрации, лично я могу порекомендовать оригинальную статью Берда Киви на 3dnews — тут, также на Хабре есть подборка статей. Где-то в глубинах Интернета можно было даже найти и пощупать пиратскую версию.

Можно выделить основные компоненты системы:

Интеграция данных: настраиваемые коннекторы на любые форматы и источники, умеют в слияние данных (data fusion) с определением cущноcтей и сохранением источника, ну и умеют в обработку очень больших объемов данных.

Менеджмент знаний: хранение данных в удобном для доступа виде (для этого их приводят к их систему классификации данных — онтологии), метаданные, целостность данных, история данных, происхождение данных (кто и на основании чего добавил), плюс система доступа и компартментализация (разделение данных по категориям, например по уровням секретности).

Поиск и исследование: тут собраны различные инструменты аналитики, мощные дашборды, граф связей, геопространственный анализ на картах, таймлайны и так далее, сквозная динамическая аналитика с фильтрацией и углублением, в том числе с возможностью прослеживать данные до источника.

Совместная работа: Можно работать как одному, так и командой, при этом туда встроены средства версионности, и есть возможность работать в своих локальных бранчах, выложить в общий, откатиться на любой этап и так далее.

Также есть упоминания, что оно может работать в распределенном режиме (как сеть нодов Nexus), но возможно это устаревшие данные.

Комментарий

Наверное сейчас это самый очевидный эталон таких аналитических комбайнов, хотя отзывы я встречал разные, серьезных фейлов у них тоже хватало, и до событий на Украине они были стабильно в минусе, насколько я помню.

Отдельно стоит отметить их онтологию, по сути это ключевая фича — кроме базовых классов позволяет создавать аналитикам свои, ну и похоже можно туда же еще добавлять и правила, политики и даже какие-то действия. Именно онтология позволяет им соединять данные из разных источников для удобного доступа в систему, а также адаптироваться к совершенно разным областям — разведка, финансы, медицина, производство, энергетика, госсервисы.

7. Maltego от Paterva

2007 год — Южноафриканская компания Paterva выпускает Maltego. Это один из самых известных и популярных из так называемых OSINT инструментов.

В сети много статей и видеодемонстраций, как это все работает, но если выделить основные фичи, то их три:

Граф связей: основное пространство для изучения объектов и их связей, а также для направленного исследования объектов через трансформы.

Трансформы: исполняемые скриптовые модули, расширяющие граф заданным образом. Каждый такой трансформ берёт сущность-источник как входные данные, производит над ней заданные действия, и возвращает новые связанные данные на граф, расширяя его. Это могут быть как простые скрипты (например, разделить адрес email на имя и домен), так и довольно сложные (запросить внешние API или запустить другую утилиту). Трансформы это такие базовые кубики, их можно применять последовательно, друг за другом, в зависимости от типа сущности (разбил email на имя и домен, потом запустил поиск по имени, далее запустил получение информации о домене, потом о владельце домена или поиск по имени и дате рождения из соцсетей — можно идти в любом направлении).

Сущности: типизированные объекты графа. Стандартный набор включает домены, IP, email, личности и другие. Поддержка пользовательских сущностей открывает путь к онтологическому моделированию предметных областей. Также используется для фильтрации доступных для применения трансформов к выделенным сущностям.

Основные принципы работы:

Итеративный графовый подход: данные не существуют изолированно. Email привязан к домену, домен — к IP, IP — к геолокации, геолокация — к организации. Каждая связь несёт аналитическую ценность, позволяя переходить от факта к контексту. Аналитик применяет трансформу к известным сущностям, получает связанные сущности, повторяет процесс. Граф растёт направленно, а не хаотично.

Визуализация как инструмент мышления: граф отображается интерактивно: узлы можно перемещать, группировать, скрывать, выделять кластеры. Визуальная плотность связей указывает на ключевые узлы сети. Пути между удалёнными сущностями становятся видимыми. Паттерны, незаметные в таблицах, проявляются в структуре графа.

Интегрированность рабочего процесса: нет разделения на «сбор» и «анализ». Трансформ выполнился — сущность появилась в графе — аналитик сразу видит контекст и принимает решение о следующем шаге.

Гибкость моделирования: Пользовательские сущности позволяют кодировать концепции предметной области напрямую в структуре графа. Например, не просто «человек» или «телефон», а «подозреваемый», «подставная организация», «канал утечки». Граф становится онтологической моделью расследования.

Комментарий

Получилась такая мощная среда для интерактивного графового анализа, позволяющая интерактивно получить полную карта отношений изучаемой цели. Часто используется в расследованиях в разных областях. Вообще система довольно универсальная, хотя похоже довольно корявая.

Из всего, что я видел, наверное, именно Мальтего ближе всего подошел к уровню, с которого уже можно решать проблему информационных перегрузок, хотя некоторых важных шестеренок явно не хватает. Если бы я уже не горел желанием навелосипедить свое, то наверное попробовал бы что-нибудь сделать именно с Мальтего.

8. Достойны упоминания

Я постарался найти и выделить наиболее интересный функционал у самых интересных (среди меня) существовавших концептов и реальных систем. У меня не было цели подробно рассмотреть их все, так как их уже довольно много (и многие популярные даже не попали в эту выборку), но стоит кратко отметить еще несколько систем и обзорно пройтись по некоторым классам приложений.

NLS Дугласа Энгельбарта

В процессе проверки текста проявилась еще тема, что тут явно еще должно быть что-то сказано про Энгельбарта, автора «Augmenting Human Intellect: A Conceptual Framework» (где он развивал тему взаимодействия человека и машины), а также создатель вдохновленной Memex системы NLS на “Матери всех демок”.

Действительно, это человек, который реально пытался продвинуть наше мышление через улучшение взаимодействия с компьютерами, но поверхностно ознакомившись с его идеями, я не увидел для себя ничего нового. Все выглядит или как развитие идей Буша, или как прообразы современных компьютеров и интернета, и в этом плане его вклад, конечно, впечатляет, но вот что-то кардинально нового именно в плане идей и концепций, я там не увидел. Поправьте меня, пожалуйста, если есть знатоки его деятельности.

Recorded Future

Платформа Recorded Future, похоже, делает ставку на предиктивную аналитику. Это одна из первых систем, начавших применять машинное обучение в аналитической разведке, и по сей день она остаётся технологическим лидером в своей нише.

Что особенно интересно в их подходе — попытка моделировать работу с данными на философском фундаменте платонизма. В основе их модели данных лежит концепция платоновских идеальных сущностей, которые проецируются в реальный мир через конкретные проявления. Видно, что они основательно подошли к проработке своей концепции, но в споре Платона с Аристотелем я скорее за последнего — нужно идти снизу, от фактов к абстракциям, а то можно начать подгонять факты под красивую картинку. Впрочем, возможно, платоновский подход лучше справляется с моделированием. Вот так, кто-то от философии бегает, а кто-то ее реально использует в работе. Кстати, директор Palantir, Алекс Карп, тоже дипломированный философ.

PIM и разные сервисы заметок

Evernote, BearApp и им подобные — это Personal Information Managers, сильно ограничены по функционалу, я их не рассматривал. Пользовался аналогом Del.icio.us — сервисом заметок, потом туда прикрутили отличные аннотации и автотэггирование, но уже хотелось большего, и платное онлайн хранилище не устраивало. Вроде недавно еще один появился, даже под названием Memex, не изучал.

Knowledge Management Software

Obsidian, Notion, Roam Research, OsintBuddy и другие — это более интересный класс приложений, но у каких-то из них ограничения в виде хранения данных только в облаке, у кого-то закрытый код или не хватает важных фич. Obsidian, в принципе, сейчас стандарт де-факто для таких систем. Он имеет очень хорошую поддержку плагинов, отличный граф, локально хранит файлы, но если присмотреться, то есть и минусы. Вроде бы он не open source (в какой-то момент авторы закрыли код), да и основная проблема на мой взгляд в том, что он как основной формат выбрал plain text md файлы (хотя потом авторы и пытались поверх добавить структуру), плюс тащит за собой экосистему javascript. В общем сам проект по функционалу довольно неплохой, особенно с плагинами, но у меня с ними сильно разошлось видение имплементации.

Second Brain от Tiago Forte

Тьяго Форте, известный эксперт по продуктивности, предложил свою модель организации знаний с упором на проекты: PARA — Projects, Areas, Resources, Archives. Если совсем кратко, то Проекты — это задачи с конкретной целью и сроками; Области — всякая бессрочная повторяющаяся текучка; Ресурсы — коллекции разной полезной инфы по топикам; Архивы — завершенные или отмененные проекты.

Наверное, вторая по популярности система, которую вместе с Zettelkasten пытаются натянуть на Obsidian. Я ее опять же не использовал, так как уже вижу серьезные проблемы (например иерархическое хранение информации, и нацеленность на текущие дела, а не долговременное хранение информации), но судя по разным вопросам на форумах — у многих возникают проблемы с реальным использованием, часто люди приходят к некоторому гибриду Second Brain с Zettelkasten, чтобы взять лучшее от обеих систем, но похоже результаты тоже не очень.

i2 Analyst’s Notebook

Насколько я понял, это сейчас (или некоторое время назад) чуть ли не стандарт для работы серьезных аналитиков, очень широко используется в расследованиях и разведке. Выглядит как Мальтего, но похоже без трансформов. Не тыкал, но со стороны выглядит как скорее визуализатор связей, чем полноценная аналитическая платформа. Не знаю, может там еще что-то накручено, но выглядит как продвинутый блокнот с графом (и иногда простота реально решает).

Semantic Web

Когда я наткнулся на семантический веб, он выглядел как раз то, что действительно мне было нужно — структурированные данные, метаданные, онтологии OWL, knowledge graphs, связанные данные — есть такие буквы в этом слове.

Однако потыкав его тогда, и потом в разное время несколько раз возвращаясь к этой теме, я так и не понял для чего он в таком виде нужен. Выглядит так, что графовые БД лучше практически во всем. Из интересного нашел только применение, что можно делать независимые ссылки (как бы прибивать название в рамках онтологии, и потом на него ссылаться из других систем) — но по-моему это можно было сделать гораздо проще. Возможно я не прав, и стоит серьезно закопаться в эту тему, но с учетом того, что не особо видно его активного внедрения, похоже не только я не понял что с ним делать.

Если у кого-то есть опыт реального, производственного применения semantic web буду признателен за наглядные примеры.

Самая важная программа на свете

Статья на Хабре 2016 года, которая остаётся актуальной. Несколько пользователей Хабра предприняло попытку коллективного поиска «того самого» инструмента для управления знаниями. Обсуждение прилагается.

Российская специфика

Насколько мне известно, в России существуют продвинутые аналитические решения, преимущественно в сегменте государственных органов. Эти системы обладают впечатляющим набором функций, однако я не имел возможности работать с ними напрямую, и не знаю насколько они доступны.

Но похоже, что основная наша проблема — культура применения аналитики. И в государственном секторе, и в бизнесе такое чувство, что преобладает запрос на “большую, красную кнопку” — сделай мне зашибись, и чтобы я сам не думал (вот кому ИИ-то зайдет, по крайней мере на какое-то время). Желание минимизировать информационную перегрузку понятно, но это можно сделать и с помощью более продвинутых инструментов. Аналитика — это не автоматизация выводов, это усиление человеческого мышления через углубленное понимание проблемы.

Заключение

Дальше должна была идти статья уже с попыткой очертить рамки нужного решения, подбить требования к нему, а также проработать сам концепт. И она даже давно была по большей части написана — это все должно было выглядеть как такой условно Мальтего, с прикрученной к нему базой знаний, использующей онтологию, расширяемым набором трансформов и продвинутой UI аналитикой.

Но ИИ-агенты заставили во многом пересмотреть концепт. Да, почти все фичи остались, но вот взаимодействие их кардинально изменилось. По сути ИИ-агенты выступают интерфейсом для взаимодействия с внешней памятью.

Причем выяснилась удивительная вещь — внезапно оказалось, что у ИИ тоже проблема с памятью и контекстом, прям как у людей. И выглядит так, что такая внешняя память, нужна и им самим.

То есть, в отличие от распространенного подхода, когда многие (включая внезапно Миллу Йовович) пилят память для агентов, на самом деле, чтобы ИИ-помощники были реально полезными, у них должен быть доступ к вашей памяти. И выглядеть это должно даже не как симбиоз человек-компьютер, а скорее как триада — человек+ИИ+память, где внешняя человеческая память (условно Memex), выступает общей памятью и для человека, и для ИИ-помощника, и при этом ИИ-помощник, еще и сам выступает как удобный интерфейс к памяти.

Есть что-то такое, когда твои давние исследования по проблемам хранения человеческих знаний внезапно оказываются крайне актуальными, но пока придется подождать с концептом.

В любом случае, все нужные вводные я расписал, если есть еще энтузиасты, заинтересованные в решении данной проблемы, то ничего не мешает самостоятельно посидеть над дизайном с ИИ с чистого листа, вполне возможно, что ваше решение окажется лучше моего. Думаю будет крайне интересно их сравнить.

ссылка на оригинал статьи https://habr.com/ru/articles/1028842/