Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей

от автора

29 апреля News/Media Alliance — ассоциация крупнейших издателей США — отправила формальное письмо некоммерческому фонду Common Crawl с требованием закрыть его архив для обучения AI и удалить из него контент входящих в ассоциацию 20 медиа. Среди подписавших — NBCUniversal, CNN, USA Today, Vox Media, McClatchy, Boston Globe Media. Парадокс в том, что под удар попала не AI-компания, а некоммерческий архив открытого веба, на котором за 17 лет существования обучились почти все главные LLM — от GPT-3 до Claude и DeepSeek.

Common Crawl основан в 2008 году. Каждый месяц фонд скачивает и архивирует открытый веб — десятки петабайт данных, выложенных в публичный доступ на Amazon S3. Изначально это делалось для исследователей и историков, но фактически именно из этого архива почти все большие LLM получили базовый корпус — например, он составляет до 60% знаний GPT-3. Тот же механизм превратил Common Crawl в обходной путь для AI-компаний: издатель блокирует у себя ботов OpenAI и Anthropic — формально защитился, но Common Crawl уже собрал у себя копии. AI-компания берет нужное из архива, без прямого контакта с CNN или NYT. В ноябре 2025 года расследование The Atlantic показало, что в архиве оказывался даже контент за пейволлом.

В письме, адресованном директору Common Crawl Ричу Скренте, NMA выдвинула четыре требования: удалять контент по запросу, публично заявить, что фонд не разрешает использовать архив для AI-обучения, изменить правила использования и явно запретить такое использование, добавить в реестр отказов (opt-out registry) прямое предупреждение для пользователей. Ранее NMA уже воевала с обходчиками пейволлов, а ее президент Даниэль Коффи последовательно отстаивает позицию: бесплатный доступ к контенту через любую прокладку — это подрыв медиаэкономики.

До этого момента издатели били по симптомам — блокировали отдельных AI-ботов у себя на сайтах. Эффективность такой защиты оказалась ограниченной: даже когда конкретного бота банят, его компания скачивает данные через Common Crawl, и блокировка обнуляется. Системная атака на Common Crawl — логичный следующий шаг: бить уже не по отдельным ботам, а по слою, где собираются обучающие выборки для следующих поколений моделей.

Common Crawl публично не ответил на письмо. Реакция AI-компаний пока тоже отсутствует. Если NMA продавит требования, ставки переворачиваются: AI-компании больше не смогут учиться на открытом вебе бесплатно — придется либо договариваться с издателями напрямую, либо строить собственные краулеры. Параллельно ломается архивная экосистема, которая 17 лет работала на доверии: Internet Archive теряет доступ к ключевым источникам не из-за своих действий, а из-за того, как он выглядит снаружи. Фундамент свободного веба ломается ровно тогда, когда у архива появился потребитель с триллионной капитализацией.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1030732/