Исследование: треть новых сайтов создана с помощью ИИ

С 2022 года около трети новых сайтов создали при помощи инструментов искусственного интеллекта, подсчитали исследователи Имперского колледжа Лондона, Стэнфордского университета* и «Архива Интернета». Их работа показала, что весь сгенерированный нейросетями текст делает интернет более жизнерадостным и менее многословным.

Авторы исследования вдохновились теорией «мёртвого интернета» — идеей о том, что большая часть интернета теперь состоит из ботов, обменивающихся сообщениями. Научная группа решила выяснить, как ChatGPT и другие чат-боты изменили интернет с 2022 года.

Распространение созданных или частично сгенерированных ИИ текстов, как опасаются, способно привести к ухудшению семантического и стилистического разнообразия, снижению фактической точности и другим негативным последствиям, отметили исследователи. Они обнаружили, что к середине 2025 года примерно 35% новых опубликованных сайтов были классифицированы как созданные или поддержанные ИИ в сравнении с нулём до запуска ChatGPT в конце 2022 года.

После десятилетий формирования людьми значительная часть интернета всего за три года стала определяться нейросетями, сообщил соавтор работы и исследователь ИИ из Стэнфорда Йонаш Долежал. По его мнению, человечество наблюдает масштабную трансформацию ландшафта за гораздо меньшее время, чем потребовалось для его первоначального создания.

Исследователи также проверили шесть распространённых критических замечаний в адрес текста, сгенерированного ИИ:

Приводит ли использование ИИ к сужению спектра точек зрений?
Создаёт ли это больше дезинформации по мере распространения галлюцинаций?
Делает ли это тексты более стерильными и чрезмерно позитивными?
Перестаёт ли ИИ надёжно указывать источники?
Создаёт ли это последовательности слов с низкой семантической плотностью?
Приводит ли это к монокультуре в литературе, где исчезают уникальные авторские голоса и устанавливается общий единообразный стиль?

Чтобы ответить на эти вопросы, исследователи отобрали образцы сайтов за 33 месяца в период с августа 2022 года по май 2025 года. Для каждого отобранного URL авторы работы получали самый старый доступный архивный снимок через API сервера CDX Wayback Machine. Необработанный HTML-код каждого снимка загружался и сохранялся для последующей обработки.

Исследователи взяли извлечённый текст сайта и использовали программное обеспечение для обнаружения ИИ Pangram v3. Когда инструмент идентифицировал сайт как сгенерированный ИИ, команда использовала этот ресурс в качестве образца для проверки своих шести гипотез. Для каждой гипотезы они определяли измеримый показатель, вычисляли его для каждой ежемесячной выборки сайтов и проверяли, коррелирует ли он с оценкой вероятности использования ИИ по месяцам.

Чтобы проверить гипотезу о том, что ИИ создаёт интернет, наполненный недостоверной информацией, команда извлекала из выбранных сайтов утверждения, основанные на фактах, а затем привлекала людей-фактчекеров для проверки. Для проверки гипотезы об ухудшении практики указания источников исследователи рассчитывали плотность исходящих ссылок в тексте, сгенерированном ИИ.

Из шести проверенных гипотез о влиянии подтвердились только две. ИИ делал интернет менее семантически разнообразным и в целом более позитивным, но он не приводил к распространению дезинформации и не переставал указывать источники.

_{*Стэнфордский университет}_{признан}_{Минюстом РФ нежелательной организацией в России.}

ссылка на оригинал статьи https://habr.com/ru/articles/1029064/