В наши дни поиск информации стал почти скучен и почти тривиален. На 90% запросов и вовсе можно получить ответ от встроенной в поисковик нейросети, без необходимости прокликивать пару десятков ссылок. Разумеется, так было не всегда. Автору статьи, например, до сих пор непривычно пользоваться нейроподсказками. Прочитать текст по ссылке своими глазами — бесценно, если требуется на 100% точная информация.
Поколение 35+ наверняка помнит, как интернет выглядел без Google и Яндекса. Кто-то был завсегдатаем школьной или районной библиотеки. Кому-то приходилось каталогизировать и размечать конспекты учебных лекций вручную. Казалось бы, это не слишком связанные вещи — где интернет-поиск и где допотопная картотека. Но без второго не было бы первого.
В сегодняшней статье мы решили посмотреть, как люди учились индексировать, хранить, а самое главное, быстро находить информацию в доцифровую эпоху. Вместе мы пройдем весь путь от седой древности до вездесущего chatGPT. Присаживайтесь поудобнее, первая остановка — Месопотамия.

Древние времена
Все началось задолго до того, как люди вообще изобрели письменность. Это были времена, когда осмысленная устная речь уже считалась достижением, а наскальные рисунки — верхом изобразительного искусства и колдовством высшей пробы.
Первыми «поисковиками» и одновременно хранилищами информации, разумеется, были живые люди. Они выучивали на память исторические сведения, законы, правила, и передавали их друг другу из уст в уста. Утрата ценного носителя информации вследствие болезни, нападения врагов или стихийного бедствия могла грозить вымиранием целому племени, поскольку многие жизненно важные знания могли храниться в единственном «экземпляре». Хуже того — если в племени не оставалось ни одного «грамотного» носителя знаний, ведущего устную летопись хотя бы на 5-6 поколений в прошлое, оно фактически оставалось за бортом истории. Слишком уж ненадежен человек, когда речь заходит о хранении больших объемов информации. Ненадежен и при этом манипулятивен. Как мы знаем, точная информация особенно ценна, если она лишена смысловых искажений и подается в дистилированном виде, без эмоций и скидок на подводящую память. Вряд ли все ранние «летописцы» могли похвастаться таким навыком. Допускаем, что позабытое могло быть сочинено прямо на месте: авторитет терять ни в коем случае нельзя.
Так что появление более надежных способов хранения информации было вопросом времени. Внимательно переписанный и вычитанный труд с большей доли вероятности оставался правдив и исторически достоверен. Ну, по крайней мере, пока в дело не вмешивались политические манипуляции с контекстом.
Месопотамия и Древний Египет считаются первыми очагами появления письменности. Однако вместе с буквами возникла совершенно неожиданная проблема — оказалось, что физические записи надо куда-то складывать, а потом находить нужные. Если человеческие чертоги памяти еще могли справляться с этой задачей, то разыскать нужную информацию на складе было задачей не из легких. Шумеры снабжали свои глиняные таблички колофонами — древним подобием метаданных. Как правило, на каждой табличке помещался формальный текст, описывающий жанровую принадлежность произведения, дававший «ссылки» на причастных к тексту людей, а в ряде случаев колофоны содержали описание музыкального сопровождения к написанному.
Египтяне пошли еще дальше и начали клеить на контейнеры с папирусами яркие ярлыки, которые помогали на глаз быстро определить место хранения искомых документов. Такие ухищрения позволяли сокращать время поиска с нескольких суток до нескольких часов — и это притом, что объемы всех хранимых знаний были в сотни раз меньше, чем, к примеру, объем переписки среднего человека в любимом мессенджере. А теперь попробуйте-ка разыскать в своей самой длинной беседе конкретное сообщение двухгодичной давности, если помните только общий его смысл. И при этом не забывайте, держа в руках телефон, методично ходить по комнате, приседать и подпрыгивать. Примерно так и выглядел поиск документов в древних архивах — ну, разве что, без смартфона.
В Александрийской библиотеке, одной из крупнейших на тот момент, произошел первый значимый прорыв, нашедший отражение даже в современном мире. На минуточку, масштаб собрания поражал воображение: в библиотеке насчитывалось приблизительно полмиллиона свитков. Каллимах, главный библиотекарь, устав от бесконечного хаоса, придумал оригинальный вариант упорядочить хранилище. Он создал Пинаки — первый в истории систематический каталог. Каллимах разделил всю литературу на восемь категорий, от драмы и ораторского искусства до медицины и философии, а внутри каждой коллекции разместил авторов в алфавитном порядке. Для каждого свитка он указывал первые слова, общее количество строк и краткую биографию автора. Фактически, это была первая в мире поисковая система с метаданными, и весьма эффективная на тот момент.
В других частях света тоже не сидели сложа руки. Ассирийский царь Ашшурбанипал в VII веке до нашей эры создал библиотеку в Ниневии. Глиняные каталоги разделяли тексты по религии, истории, науке и литературе. В Древнем Китае во времена династии Хань тексты сортировали по четырем главным разделам — классические конфуцианские тексты, исторические сочинения, философские труды и беллетристика. Эта удивительно живучая схема просуществовала с небольшими изменениями вплоть до XX века. А в индийских буддийских монастырях манускрипты группировали по трипитаке — трем корзинам учения, где отдельно лежали правила жизни монахов, философские диалоги и комментарии.
Средние века
Когда античный мир пал, дело хранения знаний отошло в руки средневековых монастырей. Европейские монахи издревле составляли инвентарные списки, которые фактически были прямыми прообразами современных каталогов. Сначала шли священные тексты, потом труды отцов церкви, а затем уже светская литература. В IX веке в аббатстве Райхенау был создан один из первых систематических каталогов, разделивших книги на 24 предметные категории. Чтобы точно идентифицировать рукопись, в каталоге приводились ее первые и последние слова. Исламский мир тоже не отставал. В багдадском Доме Мудрости в IX веке сходным образом группировались труды по научным дисциплинам, а библиотекари писали аннотации, чтобы облегчить жизнь тем, кто ищет нужную книгу.
В средние века стали появляться первые намеки на привычные нам инструменты. Тексты стали разбиваться на главы и параграфы, появились оглавления, рубрики и нумерация страниц. Здесь необходимо отметить конкорданции — алфавитные указатели всех значимых слов Священного Писания. Первую полную конкорданцию в XIII веке собирали 500 доминиканских монахов под руководством Гуго де Сен-Шера. Это была колоссальная работа по индексации текста, позволявшая найти любую цитату за считанные минуты. А в XII и XIII веках, когда стали появляться первые университеты, библиотеки Болоньи, Парижа и Оксфорда создали собственную систему, подходящую для учебных целей. Рукописи были поделены на секции, чтобы разные писцы и студенты могли одновременно копировать или просматривать их, не мешая друг другу. Соответственно, потребовалось подготовить детальнейшие каталоги, описывающие структуру и содержание каждой секции. На минуточку, до изобретения печатного станка еще оставалось несколько столетий, поэтому весь тяжкий труд по каталогизации документов делался вручную. И малейшая ошибка составителя могла превратить последующий поиск в форменное безумие. К тому же не станем забывать о том, что многие книги, исключая крупнейшие религиозные трактаты, могли существовать в количестве трех-пяти штук на весь мир. И ученым мужам нередко приходилось преодолевать огромные расстояния и путешествовать между библиотеками, чтобы раздобыть искомый труд. Сквозных каталогов не существовало как явления, а связь даже между соседними городами оставляла желать лучшего.
Попытки формализовать язык и изобрести новые способы быстрого поиска информации уходят корнями в мистику и философию. В тринадцатом веке испанский каббалист Авраам Абулафия разработал способ комбинирования букв еврейского алфавита, следуя древним текстам «Сефер йецира». Он верил, что механическое соединение символов по строгим правилам открывает пророческую мудрость, а в культуре того времени прочно укоренились легенды о големах — существах, оживленных посредством манипуляций со словами.
В семнадцатом веке Готфрид Лейбниц попытался перенести эту идею в плоскость рациональной философии. Вдохновившись бумажной машиной Раймунда Луллия с вращающимися кругами символов, Лейбниц мечтал создать алфавит человеческих мыслей. Он верил, что если найти адекватное символическое представление для основополагающих принципов человеческого мышления, путем правильной комбинации символов можно будет получить любое знание. При таком подходе любой философский или научный спор мог быть решен с помощью простой математической калькуляции. Однако современники с завидным постоянством осмеивали абсурдность этого подхода. Джонатан Свифт в «Путешествиях Гулливера» буквально растоптал концепцию, описав машину Академии Лагадо — ее студенты крутили рамы с деревянными кубиками и буквами, чтобы автоматически писать книги по философии и богословию. Свифт точно подметил, что слепая генерация символов лишена главного — способности понимать контекст и смысл. Но к этому вопросу мы еще вернемся позднее.
Слово печатное
Появление печатного станка Гутенберга в XV очень сильно повлияло на упорядочивание хаоса и свело к минимуму труд переписчиков. Стандартизация текстов и постоянная нумерация страниц позволили создавать серьезные поисковые инструменты, ведь теперь в каждом экземпляре книги каждая цитата была на одной и той же странице. К XVI веку книги начали на постоянной основе снабжать оглавлениями и указателями. Конрад Геснер в своей Библиотеке Универсалис попытался каталогизировать все известные печатные книги на латыни, греческом и иврите. Его труд содержал около 12 тысяч записей с аннотациями и стал первой попыткой охватить все знания мира.
Вслед за универсальными трудами пошли узкоспециализированные указатели. Сначала это были справочники по химии и ботанике, а в 1879 году запустили Index Medicus — первый регулярно обновляемый указатель медицинской литературы, который спас немало жизней, ведь врачам теперь не приходилось тратить драгоценное время на поиск способов лечения или диагностики известных заболеваний.
Но главная революция в аналоговом поиске произошла чуть раньше, в 1791 году, когда француз Андре-Франсуа Дезонэ предложил формат каталожной карточки. Свергнутый тогда Людовик XVI увлекался карточными играми и пасьянсами — колод у него было в избытке. Из них-то и решили делать карточки.

Создание карточки на каждую книгу позволяло бесконечно обновлять фонд и добавлять новые поступления без необходимости каждый раз перепечатывать толстые и дорогие книги-справочники.
В XIX веке были утверждены универсальные библиотечные классификации. Мелвил Дьюи в 1876 году разделил все области познания на 10 основных классов, которые в свою очередь дробились на десятки и сотни подклассов. Эта система до сих пор существует в библиотеках США. Бельгийцы Поль Отле и Анри Лафонтен развили эту идею и создали Универсальную десятичную классификацию, которая позволяла описывать документы сразу по нескольким параметрам, создавая прообраз фасетного поиска (метод фильтрации и организации информации, при котором результаты одновременно уточняются по нескольким независимым категориям). Словом, методы поиска и организации хранения информации совершенствовались с каждым столетием.
XX век начинается
Чтобы оценить сложности поиска информации в те годы, достаточно всего одного примера, притом довольно позднего. В 1992 году в обычную библиотеку зашел пожилой профессор физики. Этим профессором был Альберт Эйнштейн. Он искал редкую немецкую статью 1950-х годов о квантовых эффектах. Из зацепок у него было только имя автора Райнер и примерное название. Квест был крайне сложным и запутанным. Библиотекари начали с карточного каталога иностранных журналов и выписали все немецкие издания. Потом перешли к печатным указателям за 50-е годы. Три полных рабочих дня ушло на то, чтобы пролистать гигантские тома и вычитать индекс на букву R. На четвертый день в разделе квантовой физики за 1956 год они нашли ту самую статью. Нынешний Google Scholar выполнил бы подобную задачу за 2-3 секунды, но тогда это было настоящее библиографическое расследование, требовавшее терпения и мастерства.
Переход от философских спекуляций в работе со словом к точной математике произошел в начале двадцатого века. Русский ученый Андрей Марков в 1913 году взял роман Пушкина «Евгений Онегин» и выписал первые двадцать тысяч букв в одну строку, убрав пробелы и пунктуацию. Разбив текст на фрагменты, он начал скрупулезно считать гласные и согласные, чтобы доказать, что вероятность появления следующей буквы зависит от предыдущей. Этот анализ заложил основу для цепей зависимых вероятностей.
Идеи Маркова позже подхватил Клод Шеннон, создавая математическую теорию связи. В 1948 году Шеннон провел серию экспериментов, генерируя текст на английском языке. Он начинал с абсолютно случайного выбора букв, получая бессмысленный шум, но затем ввел частотные таблицы. Когда алгоритм начал учитывать, что буква E встречается чаще Q, а за согласными чаще следуют гласные, сгенерированные фразы обрели подобие структуры. Перейдя к комбинированию целых слов на основе их статистической вероятности, Шеннон получил грамматически правильные, но лишенные логики предложения, доказав, что язык обладает скрытым математическим каркасом. Однако эксперименты оставались экспериментами, и до реального применения машин в каталогизации оставалось еще немало времени.
К середине XX века научных записей стало настолько много, что заниматься ими вручную стало фактически невозможно. Пришлось привлекать механику. В 1930-х годах Эмануэль Гольдберг создал статистическую машину, которая с помощью фотоэлементов искала документы на микрофильмах.
А в 1945 году Ванневар Буш описал концепцию машины Memex. Она могла хранить книги и записи, а главное — создавать ассоциативные связи между ними. Буш задумывал свою машину как устройство, с помощью которого человек сможет не просто сохранять данные, но еще и быстро их получать. Memex так и не построили, но идея гипертекста заложила фундамент для будущего интернета.
К концу сороковых подход к обработке текста сместился в сторону криптографии. Уоррен Уивер в своем меморандуме предложил рассматривать любой текст как набор закодированных смыслов. Его рассуждения базировались на наблюдении, что незнакомый текст можно считать шифром, за которым скрывается универсальное содержание. Он предположил, что математические методы, применявшиеся для раскрытия военных шифров, способны расшифровать скрытое содержание за словами и фразами на естественном языке. Эта концепция заложила фундамент для восприятия языка как формального массива данных, подлежащего математическому анализу.
Были и курьезные образчики математической обработки текста. Джозеф Вейценбаум в лаборатории искусственного интеллекта MIT создал программу Элиза, работавшую на мейнфрейме IBM. Скрипт имитировал сессию у психотерапевта: машина сканировала ввод пользователя на наличие ключевых слов и переформулировала его реплики в виде уточняющих вопросов. Этот примитивный алгоритм вызвал шок у создателя. Люди начинали искренне привязываться к программе и доверять ей самые сокровенные тайны, а секретарь Вейценбаума даже требовала уединения для разговоров с машиной. Этот феномен, позже названный эффектом Элизы, продемонстрировал готовность человека наделять бездушный код эмоциями и эмпатией. Разочаровавшись в том, как общество воспринимает его творение, Вейценбаум посвятил остаток жизни критике вычислительного рационализма, доказывая, что симуляция понимания не имеет ничего общего с настоящим интеллектом.
Эпоха компьютеров в деле поиска информации началась в 50-х. Сначала ВВС США использовали систему SAGE для поиска данных о воздушной обстановке. А в 1964 году в Национальной медицинской библиотеке США запустили MEDLARS (Medical Literature Analysis and Retrieval System) — первую масштабную компьютеризированную систему хранения и поиска библиографических данных в биомедицинской литературе, работавшую на магнитных лентах. Вместе с железом развивались и методы поиска. Появилось координатное индексирование, булев поиск с операторами И, ИЛИ, НЕ, тезаурусы для стандартизации терминов и стемминг, который приводил слова к основе. В 1970-х годах компания Lockheed запустила систему DIALOG. Это была первая коммерческая служба, которая через обычные телефонные линии давала доступ к десяткам баз данных. К 1980 году там уже было 150 баз и 35 миллионов записей. В 80-е годы появились полнотекстовые базы LEXIS и NEXIS, где юристы и журналисты могли искать не просто по названию книги, а по всему ее тексту. К началу 90-х годов университеты внедрили электронные каталоги OPAC, и библиотеки перестали быть единственным окном в мир знаний.
Вплоть до последних лет в обработке текста доминировали системы, основанные на строгих правилах. Разработчики стремились формализовать языковые знания в виде четких алгоритмических инструкций. Машины выполняли морфологический разбор, выделяя корни, приставки и окончания, а затем строили синтаксические деревья для определения грамматических связей между словами. Программа определяла главные и второстепенные члены предложения, выявляя сложные зависимости. Самой большой проблемой стал семантический анализ — необходимость научить машину разрешать многозначность. Алгоритмы вынуждены были анализировать окружающий контекст и грамматические конструкции, чтобы «понять», о чем именно идет речь. Продвинутые системы того времени не просто искали совпадения в словаре, но и анализировали контекст, автоматически определяли тематику материала и применяли специализированные глоссарии, обрабатывая тысячи страниц документации по жестким формальным инструкциям.
Главный прорыв, как вы наверняка догадывались, случился в начале 90-х, когда родилась Всемирная паутина. Тим Бернерс-Ли создал первый веб-сайт, и интернет начал расти с невообразимой скоростью. Сначала появились каталоги вроде Virtual Library, Yahoo Directory и DMOZ.

Сайты раскладывались по типам вручную, точно так же, как это делали древние библиотекари. Но страниц становилось слишком много, и ручной труд стал попросту бесполезен. Спасение пришло в виде полнотекстовых поисковых систем, которые автономно ходили по сети и индексировали текст. WebCrawler в 1994 году стал первым движком, индексировавшим страницы целиком.

AltaVista в 1995 году предложила продвинутый синтаксис запросов. А в 1998 году вышел появился Google. Его создатели внедрили алгоритм PageRank, который оценивал важность страницы не только по словам, но и по количеству ссылок на нее со всего интернета. Это было цифровым аналогом научного цитирования — чем на тебя чаще ссылаются, тем ты авторитетнее.
Однако человеческий язык оказался слишком хаотичным и многогранным. Затолкать его в прокрустово ложе законов, правил и математических формул оказалось практически невозможно. Идиомы и культурные отсылки с трудом поддавались формализации. К концу восьмидесятых годов фокус сместился на статистические методы и эмпирический подход. Исследователи начали загружать в машины огромные массивы текстов для выявления скрытых закономерностей. Предварительная обработка включала разбиение документов на предложения и извлечение устойчивых фраз. Алгоритмы вычисляли вероятность совместного появления определенных слов, формируя вероятностные словари, где каждому выражению соответствовал набор возможных вариантов с указанием их доли. Параллельно обучались языковые модели, которые анализировали гигантские объемы данных, чтобы распознавать естественные сочетания слов. Машина училась понимать, какие фразы встречаются в живой речи постоянно, а какие, несмотря на грамматическую правильность, люди никогда не используют. Фразовые модели позволили оперировать целыми словосочетаниями, а факторные научились учитывать морфологические характеристики.
Качественный сдвиг в индексации и поиске текста произошел с приходом глубоких нейронных сетей. Машины перестали видеть в тексте просто последовательность дискретных символов и начали преобразовывать слова в многомерные векторы. В этом семантическом пространстве смысл слова стал набором чисел, отражающих его значение и контекст. Слова с близкими значениями оказывались рядом в этом пространстве, а противоположные по смыслу удалялись друг от друга. Система научилась математически улавливать семантические отношения, понимая скрытые связи между концепциями.
Долгий путь от месопотамских табличек до нейросетей доказывает одну вещь. На каждом этапе человечество строило мостик между хаосом данных и структурированным знанием. Сегодня мы можем мгновенно узнать что угодно, но столкнулись с новыми проблемами — информационными пузырями, фейками и переизбытком бессмысленной информации. И это дает интересную почву для размышлений. Доступ к данным ни в коем случае не равен реальному знанию. Без навыков критического мышления мы становимся подобием нейросетей — усердными в поиске, хаотичными и не постигающими глубину предмета.
ссылка на оригинал статьи https://habr.com/ru/articles/1045999/