Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

Многие из самых популярных бенчмарков для моделей ИИ устарели или плохо разработаны.

Дисклеймер: это вольный перевод статьи издания MIT Technology Review. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

Каждый раз, когда выходит новая модель искусственного интеллекта, ее обычно рекламируют как лучшую в ряде бенчмарков. Например, модель GPT-4o от OpenAI была представлена в мае с результатами, которые показали, что ее производительность превосходит все другие модели ИИ в нескольких тестах.

Проблема в том, что эти бенчмарки плохо разработаны, их результаты трудно воспроизвести, а используемые в них метрики часто произвольны, говорится в новом исследовании. Это важно, потому что оценки моделей ИИ по этим показателям будут определять уровень их проверки и регулирования.

«Это похоже на Дикий Запад, потому что у нас нет хороших стандартов оценки», — говорит автор статьи Анка Ройел, аспирант факультета информатики Стэнфордского университета и сотрудник Центра безопасности ИИ.

Бенчмарк — это, по сути, тест, который проходит ИИ. Он может быть в формате множественного выбора, как, например, самый популярный из них, бенчмарк Massive Multitask Language Understanding, известный как MMLU, или же это может быть оценка способности ИИ выполнять конкретную задачу или качества его текстовых ответов на заданную серию вопросов.

Компании, занимающиеся разработкой искусственного интеллекта, часто приводят результаты бенчмарков как свидетельство успешности новой модели. «Разработчики этих моделей, как правило, оптимизируют их под конкретные задачи», — говорит Анна Иванова, профессор психологии Технологического института Джорджии и руководитель лаборатории языка, интеллекта и мышления (LIT), которая не принимала участия в исследовании Стэнфорда.

Эти бенчмарки уже являются частью планов некоторых правительств по регулированию ИИ. Например, в Законе ЕС об искусственном интеллекте, который вступит в силу в августе 2025 года, бенчмарки упоминаются в качестве инструмента для определения того, демонстрирует ли модель «системный риск»; если да, то она будет подвергаться более тщательному контролю и регулированию. Британский институт безопасности ИИ ссылается на бенчмарки в документе Inspect, который является основой для оценки безопасности больших языковых моделей.

Но сейчас они могут быть недостаточно полезны, чтобы использовать их таким образом. «Существует потенциальное ложное чувство безопасности, которое мы создаем с помощью бенчмарков, если они плохо разработаны, особенно для случаев использования с высокими ставками», — говорит Ройел. «Может показаться, что модель безопасна, но это не так».

Учитывая растущую важность бенчмарков, Ройел и ее коллеги решили рассмотреть наиболее популярные примеры, чтобы выяснить, что делает их хорошими — и достаточно ли надежны те, которые мы используем. Сначала исследователи попытались проверить результаты бенчмарков, которые выкладывают разработчики, но зачастую они не могли их воспроизвести. Чтобы протестировать бенчмарк, обычно нужны инструкции или код для его запуска в модели. Многие создатели бенчмарков не выкладывали в открытый доступ код для запуска бенчмарка. В иных случаях код был устаревшим.

Создатели бенчмарков часто не выкладывают в открытый доступ вопросы и ответы из своего набора данных. Если бы они это сделали, компании могли бы просто обучить свою модель на бенчмарке; это все равно что позволить студенту увидеть вопросы и ответы на тесте перед его сдачей. Но это затрудняет их анализ.

Еще одна проблема заключается в том, что бенчмарки часто бывают «насыщенными», то есть все проблемы уже практически решены. Допустим, есть тест с простыми математическими задачами. Первое поколение модели искусственного интеллекта получило 20% за тест и провалилось. Второе поколение модели получает 90%, а третье — 93%. Сторонний наблюдатель, взглянув на эти результаты, может решить, что прогресс ИИ замедлился, но другая интерпретация может заключаться в том, что эталонный тест был решен и больше не является таким уж важным показателем прогресса. Он не отражает разницу в способностях между вторым и третьим поколениями модели.

Одной из целей исследования было определить список критериев, по которым можно сделать хороший бенчмарк. «Это определенно важная проблема — обсуждать качество бенчмарков, что мы хотим от них, что нам от них нужно», — говорит Иванова. «Проблема в том, что не существует единого стандарта для определения бенчмарков. Эта статья — попытка сформировать набор критериев оценки».

Вместе с этой статьей был запущен сайт BetterBench, на котором размещен рейтинг самых популярных бенчмарков ИИ. В рейтинг входят такие факторы, как наличие или отсутствие консультаций с экспертами при разработке, четкое определение тестируемой возможности и другие основные моменты — например, есть ли канал обратной связи с бенчмарком, прошел ли он рецензирование.

Самые низкие оценки получил бенчмарк MMLU. «Я не согласен с этим рейтингом. На самом деле, я являюсь автором некоторых работ, занимающих высокие позиции, и могу сказать, что бенчмарки, занимающие более низкие позиции, лучше их», — говорит Дэн Хендрикс, директор CAIS, Центра безопасности искусственного интеллекта, и один из создателей бенчмарка MMLU. Тем не менее Хендрикс считает, что лучший способ продвинуться в этой области — создать более совершенные бенчмарки.

Некоторые считают, что критерии могут не учитывать общую картину. «Статья добавляет нечто ценное. Критерии реализации, критерии документирования — всё это важно. Это делает бенчмарки лучше», — говорит Мариус Хоббхан, генеральный директор Apollo Research, исследовательской организации, специализирующейся на оценке ИИ. «Но для меня самый важный вопрос — измеряете ли вы то, что нужно? Вы можете поставить все эти галочки, но у вас все равно получится ужасный бенчмарк, потому что он просто не измеряет то, что нужно».

По сути, даже если бенчмарк разработан идеально, тест, проверяющий способность модели давать убедительный анализ сонетов Шекспира, может оказаться бесполезным, если вам нужно проверить хакерские возможности ИИ.

«Вы можете увидеть бенчмарк, который якобы измеряет нравственные рассуждения. Но что это значит, не всегда четко определено. Включены ли в процесс люди, которые являются экспертами в этой области? Часто это не так», — говорит Амелия Харди, другой автор статьи и исследователь ИИ в Стэнфордском университете.

Существуют организации, активно пытающиеся улучшить ситуацию. Например, новый бенчмарк от исследовательской организации Epoch AI был разработан при участии 60 математиков и подтвержден на предмет сложности двумя лауреатами медали Филдса, самой престижной награды в области математики. Участие этих экспертов соответствует одному из критериев оценки BetterBench. Самые современные модели способны ответить менее чем на 2% вопросов бенчмарка, а это значит, что до его насыщения еще далеко.

«Мы действительно постарались представить всю широту и глубину современных математических исследований», — говорит Тамай Бесироглу, заместитель директора Epoch AI. Несмотря на сложность теста, Бесироглу считает, что потребуется всего четыре года, чтобы модели искусственного интеллекта достигли уровня, превышающего 80%.

А организация Хендрикса, CAIS, сотрудничает с Scale AI для создания нового бенчмарка, который, по его словам, позволит проверить модели ИИ на границе человеческих знаний, получившего название «Последний экзамен человечества» (Humanity’s Last Exam, HLE). «HLE был разработан глобальной командой ученых и профильных экспертов», — говорит Хендрикс. «HLE содержит однозначные, не поддающиеся поиску вопросы, для решения которых требуется степень доктора философии». Если вы хотите внести свой вопрос, вы можете сделать это здесь.

Несмотря на разногласия по поводу того, что именно следует измерять, многие исследователи сходятся во мнении, что необходимы более надежные бенчмарки, тем более что они задают направление для компаний и являются важнейшим инструментом для правительств.

«Бенчмарки должны быть действительно качественными», — говорит Харди. «Мы должны понимать, что значит «действительно хорошо», а сейчас этого нет».

ссылка на оригинал статьи https://habr.com/ru/articles/861970/

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

Комментарии

Добавить комментарий Отменить ответ