Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.

Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit. Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».

«Генеративный ИИ загрязнил данные. Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она.

Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает. Включение этого мусора в данные искажает сведения о частотности употребления слов». В качестве примера она привела то, как ChatGPT злоупотребляет словом «вникать», что резко повысило частоту использования этого конкретного слова, хотя на самом деле люди не стали употреблять его чаще.

Автор проекта признаёт, что в данных для Wordfreq всегда был спам, однако «он был управляемым и часто идентифицируемым». Теперь же большие языковые модели «генерируют текст, который маскируется под настоящий язык, хотя его нет, и всплывают повсюду». Спир добавила, что проект Wordfreq был связан с обработкой естественного языка, но это направление теперь подчинено разработке LLM и генеративного ИИ:

«Область, которую я знаю как “обработка естественного языка”, изменилась. Она вся поглощена генеративным ИИ. Другие методы тоже существуют, но генеративный ИИ высасывает весь воздух в комнате и получает все деньги. Редко можно увидеть исследование в области NLP, которое не зависело бы от закрытых данных, контролируемых OpenAI и Google, двумя компаниями, которых я и так презираю».

Спир также подчёркивает тот факт, что данные веб-скрейпинга стало сложнее добывать, поскольку такие платформы, как Twitter и Reddit, начали взимать плату за доступ к своим API. Спир завершила своё сообщение, сказав, что больше не хочет иметь ничего общего с этой отраслью.

«Я не хочу работать над чем-то, что можно было бы спутать с генеративным ИИ или что могло бы принести ему пользу. OpenAI и Google могут собирать свои собственные чёртовы данные. Надеюсь, им придётся заплатить за это очень высокую цену, и они будут проклинать тот беспорядок, который сами же и устроили».

ссылка на оригинал статьи https://habr.com/ru/articles/845072/

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

Комментарии

Добавить комментарий Отменить ответ