Гарвард при поддержке Microsoft собрал открытый дата-сет из ~500 000 книг, но Google не дает его опубликовать

В прошлый четверг Гарвардский университет объявил о скорой публикации массивного дата-сета для обучения языковых моделей, в котором было собрано почти полмиллиона оцифрованных книг на различных языках.

Все материалы, используемые в дата-сете, уже перешли в публичный доступ и не защищены авторским правом, то есть упомянутый массив может использоваться для обучения языковых моделей всеми желающими. Данная инициатива была профинансирована Microsoft и OpenAI с целью повысить скорость развития языковых моделей и других ИИ-инструментов за счет создания равных возможностей для всех участников рынка. Хотя бы с точки зрения наличия пригодного для обучения массива данных.

Но все усложняется тем, что для публикации всего массива целиком нужно разрешение Google, как владельца одного из источников — Google Books.

Особенностью собранного Гарвардской институциональной дата-инициативой набора данных является то, что на текущий момент упомянутый массив будет самым крупным открытым дата-сетом в истории. По объему данных он значительно превышает набор данных Books3 (он содержал пиратские копии книг), который использовался для обучения Llama. Также в нем присутствует жанровое разнообразие, от наследия мировой художественной литературы и до редких учебников и словарей на не слишком распространенных языках (в пример приводятся редкий чешский учебник по математике и валлийские словари), которые когда-то были все же оцифрованы и попали в сеть в том числе через Google Books.

В этом и заключается основная проблема: по всей видимости, большинство данных, которые собрали специалисты Гарварда, изначально были размещены в Google Books, то есть для публикации собранного дата-сета им нужно разрешение поискового гиганта. Google идти на уступки, по всей видимости, не собирается и пока к единому решению с Гарвардом и Microsoft/OpenAI не пришел, а на запрос журналистов WIRED в компании не ответили. По всей видимости, сейчас вокруг собранных материалов идет активный торг.

Не удивительно, что инициатором подобной «уравнивающей» инициативы стали Microsoft. В этой компании давно и активно поддерживают Open Source и у них есть понимание, что качественные инженерные решения далеко не всегда связаны с высокими бюджетами или большими корпорациями. Намного выгоднее для всей индустрии — дать мировому инженерному сообществу весь необходимый для работы инструментарий, ведь это в любом случае ускорит процесс развития языковых моделей и нейросетей, на которые Microsoft делает большую ставку.

В свете того, что на компанию сейчас оказывается давление в плане эксклюзивного партнерства с OpenAI — Google недоволен подобным положением вещей и пытается оспорить эксклюзив Microsoft через жалобы в Федеральную торговую комиссию США — инвестиции в сообщество Open Source выглядят еще более логично. Но, вполне возможно, что как раз из-за недовольства Google собранный гарвардскими инженерами массив данных останется неопубликованным или будет значительно урезан.

Важно понимать и то, что рынок нейросетевых технологий и ассистентов, который был драйвером роста сектора весь 2023 и часть 2024 года, сейчас стагнирует и замедляется. Последняя презентация OpenAI не вызвала того «вау-эффекта», которого от нее ожидали, и даже риторика Сэма Альтмана стала более сдержанной и почти извиняющейся.

Широкая публика постепенно теряет веру в скорый приход ИИ-ассистентов, ведь мы это уже проходили во времена Siri и Cortana около десяти лет назад. Тогда все ждали чуда, но его закономерно не случилось, и в итоге вместо обещанного ИИ-ассистента мы получили более-менее неплохой голосовой ввод. Текущее состояние ИИ-ассистентов и нейросетей можно охарактеризовать скорее как «продвинутая поисковая строка», нежели чем как полноценного помощника. Осознание этого факта заставляет гигантов двигаться, и Microsoft двигается активнее прочих — именно они возглавили этот «поезд» в свое время, именно они и понесут максимальные репутационные и финансовые убытки в случае повторения истории голосовых ассистентов в первой половине 2010-х.

По мнению специалистов Гарварда, максимально обширный публичный дата-сет для обучения может подтолкнуть развитие языковых моделей, а следование принципам Open Source только ускорит этот процесс. Грег Лепперт, исполнительный директор институциональной дата-инициативы, приводит в пример ядро Linux, которое легло в основу современной цифровой цивилизации и стало прародителем ключевых операционных систем в мире. Точно так же и собранные данные могут лечь в основу будущих языковых моделей и нейросетей. Итоговый результат же будет зависеть от того, как именно будет проходить обучение и какие дополнительные данные и параметры будут использоваться разработчиками в будущем.

ссылка на оригинал статьи https://habr.com/ru/articles/866020/

Гарвард при поддержке Microsoft собрал открытый дата-сет из ~500 000 книг, но Google не дает его опубликовать

Комментарии

Добавить комментарий Отменить ответ