Wayback Machine столкнулся с проблемами при закупке носителей информации из-за бума ИИ

от автора

Сервис Wayback Machine, управляемый некоммерческой организацией Internet Archive, оказался в кризисе из-за того, что новостные агентства всё чаще блокируют работу его веб-сканеров. Кроме того, архив больше не может закупать носители информации из-за их резкого подорожания, связанного с бумом искусственного интеллекта.

По данным Originality AI (специалиста по обнаружению с помощью ИИ), сейчас режим блокировок включили 23 крупных новостных сайта. В их число входят New York Times и USA Today.

При этом последний использует в публикациях данные, которые ранее сохранили в Wayback Machine. Это заметил директор архива Марк Грэм. Он отметил: «Они могут собирать информацию для своих исследований благодаря существованию Wayback Machine. В то же время они блокируют нам доступ».

Сами новостные организации заявляют, что возражают не против сохранения исторического контента, а против того факта, что этот архив может использоваться сторонними компаниями, занимающимися искусственным интеллектом.

Представитель New York Times Грэм Джеймс заявил: «Проблема в том, что контент Times в Интернет-архиве используется компаниями, занимающимися искусственным интеллектом, в нарушение закона об авторском праве, чтобы напрямую конкурировать с нами».

Грэм утверждает: «Нет сомнений в том, что всё более широкое ограничение доступа к общедоступной информации в интернете влияет на способность общества понимать, что происходит в нашем мире».

Уже составлена ​​петиция под названием «Журналисты приветствуют роль Интернет-архива в сохранении общедоступной информации», собравшая более 100 подписей от работающих сотрудников редакций. Диалог между Интернет-архивом и новостными издателями продолжается.

Одновременно резкий рост цен на жёсткие диски и накопители, вызванный бумом ИИ, делает сохранение данных и архивирование интернета более дорогим и сложным.

За последние несколько месяцев цены на твердотельные накопители, жёсткие диски и другие типы устройств резко выросли. Например, внешний SSD-накопитель Samsung на 2 ТБ стоит вместо $159 уже $575.

Брюстер Кале, основатель Internet Archive и Wayback Machine, рассказал, что стремительный рост цен на хранение данных — это «реальная проблема, отнимающая у нас время и деньги».

«Мы обнаружили, что предпочтительные диски объёмом 28-30 ТБ либо недоступны, либо продаются по очень высокой цене. Мы собираем более 100 терабайт новых материалов каждый день, и у нас уже заархивировано более 210 петабайт материалов на машинах, которые нуждаются в постоянном обновлении и обслуживании, поэтому нам постоянно требуются новые жёсткие диски», — сказал он.

«Нам повезло иметь активное сообщество, которое жертвует средства Архиву, и мы также ищем помощи у производителей жёстких дисков в эти трудные времена. Мы всегда ищем дополнительную помощь», — добавил Кале. 

Фонд «Викимедиа» жалуется на аналогичные проблемы.

«Учитывая, что только в “Википедии” содержится более 65 миллионов статей, доступ к серверным и дисковым мощностям для нас жизненно важен. Мы, безусловно, наблюдаем рост цен с конца 2025 года. Этот рост цен беспокоит нас, как и всех остальных участников отрасли. Мы видим основное влияние на закупку памяти и жёстких дисков, а также на сроки поставки серверов и нашу способность размещать будущие заказы», ​​— сказал представитель фонда.

Фонд электронных границ предположил, что «блокировка Интернет-архива не остановит ИИ, но сотрёт историческую запись интернета». Помимо этой логистической проблемы, архивистам теперь приходится принимать сложные решения о том, как и что архивировать, поскольку в некоторых случаях у них просто заканчивается место для хранения данных.

Марк Филлипс, профессор Университета Северного Техаса, рассказал, что ему пришлось учитывать стоимость инфраструктуры: «Когда мы решили обновить некоторые из наших серверов, стоимость оперативной памяти и SSD-накопителей для этих машин резко возросла, и это заставило нас пересмотреть некоторые из запланированных объёмов хранилища. За последние шесть месяцев нам не приходилось совершать крупных закупок хранилищ, и я надеюсь, что к тому времени, когда мы это сделаем, рынок немного стабилизируется».

Стоимость хранилищ стала постоянной темой обсуждения в сообществе r/DataHoarder на Reddit, где цифровые библиотекари и архивисты-любители обсуждают различные варианты архивирования; многие сообщения поступают от людей, которые говорят, что им просто пришлось прекратить покупать накопители и отложить свои планы по архивированию. 

Ранее основатель Интернет-архива рассказал, что библиотека теперь сохраняет контент, сгенерированный ИИ, в том числе ответы ChatGPT и сводки ИИ-поиска Google. Команда библиотеки ежедневно придумывает сотни вопросов и подсказок ИИ на основе новостей и записывает как свои запросы, так и результаты выдачи.

ссылка на оригинал статьи https://habr.com/ru/articles/1031984/