Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward’ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко — далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper’ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.

* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

* 6 главных ошибок создателей бенчмарков (по версии дискуссии на Neurips)

* Запускать бенчмарк с 70–80% accuracy на топ-модели (« ты потратил столько усилий на уже решенную задачу, стремись к 0–1%»)
* В multimodal — забыть проверить, что задача реально требует видео/картинку (часто задача решается на уровне текста)
* Исходить из «собственной теории интеллекта» (как в ARC) — никто не знает, коррелирует ли это с реальным миром
* Не фильтровать крауд-спам (до 25% случайных ответов)
* Отпускать одного краудворкера делать 80% работы — вы изучаете его, а не популяцию
* Публиковать результаты без p-values и доверительных интервалов

* Будущее:

Главное о будущем:
— динамические бенчмарки
— лонгитюдные исследования: влияние LLM на человека через год использование
— калибровка: знает ли модель, чего не знает
— «кошачий интеллект»: задачи, с которыми справится кот, но не GPT ( простые пространственные задачи)

Например, уже прошли 80% SWE-bench, но до замены реального программиста — дистанция огромна.

Надеюсь, этот обзор полезен
👉 Кому забирать себе: ML-инженерам, исследователям, продакт-менеджерам, которые принимают решения на основе метрик.

#Neurips #MachineLearning #Benchmarking #LLM #MLops

ссылка на оригинал статьи https://habr.com/ru/articles/1036234/