Как и зачем мы замеряли знания культурного кода у YandexGPT

Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей, — нейросеть обязана понимать культурные отсылки самого разного уровня.

В статье про бенчмарки для LLM уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и, думаю, пришло время рассказать о нём подробнее: как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT.

С чего всё началось

Культурный код — это система знаков, традиций, норм и понятий, которые отличают одну группу людей от другой. Культурный код может рассказывать о чём угодно: о поколениях, увлечениях, профессиях, религии — о любых группах людей, связанных значительным общим контекстом. Но чаще всего о нём вспоминают, когда речь идёт о культурных различиях между национальностями и странами.

В декабре 2023 года мы взялись за большую задачу — оцифровать представление о современном российском культурном коде. Вместе с командой AI‑тренеров мы провели тщательное исследование и решили разложить эту задачу на следующие верхнеуровневые категории, которые, в свою очередь, состоят из более мелких.

Сразу отмечу, что, хоть сфера истории тоже так или иначе относится к культурному коду, мы не включали её в этот бенчмарк. Для этого у нас есть отдельные бенчмарки, которые проверяют знания событий, личностей, фактов.

Как измерять понимание культуры

Итак, мы договорись, какие аспекты и категории будем замерять. Теперь стоит разобраться, как именно замерять. Не буду подробно говорить про очевидный фактологический срез — знание дат, имён, цитат, культурных событий. Их можно замерять типичным подходом академических бенчмарков на знание фактов.

Сформулировать задачи на знание цитат, фразеологизмов, разговорных выражений несложно: показываем модели неполную цитату с пробелом, который просим заполнить. Но и у модели такие задачи обычно не вызывает затруднений.

Вставь недостающее слово в цитату из «Кавказской пленницы»: «Будь проклят тот день, когда я сел за баранку этого…!»

…пылесоса

Заполни пробел: «Лол,…, чебурек»

…кек

Закончи фразу: «Меня трудно найти, легко потерять и невозможно…»

…забыть

Такие задачи скорее тест на способность модели запоминать факт. Они не тестируют её понимание и способность интерпретировать. Поэтому мы ввели ещё один тип вопросов — открытые. В таком вопросе мы не приводим конкретную цитату, а косвенно описываем её.

По мнению Виктора Цоя, чего требуют наши сердца и глаза?

Перемен

Какое звание у Очевидности?

Капитан

Сколько шагов отделяет любовь от ненависти, если верить пословице?

Один

А ещё эти вопросы отлично подходят для проверки модели на какие‑то точные знания, менее очевидные, чем исторические факты. Например, о быте, социуме, приметах.

Этот предмет интерьера обычно лежит на полу, но у некоторых людей может висеть и на стене — для красоты или тепла. Ответь одним словом.

Ковёр

Народная примета уверяет, что этого нельзя делать в доме, если не хочешь остаться без денег.

Свистеть

Синонимом какого лекарственного растения названа транспортная карта в Санкт-Петербурге?

Подорожник

И, наконец, ещё одно усложнение: формулируем открытые вопросы, но более витиевато. Человеку для ответа на такой вопрос приходится подумать немного дольше, но задача по‑прежнему остаётся посильной для него. А вот модели приходится нелегко.

Что правда делает с глазами, когда нам неприятно её слышать?

Колет

В каком месяце, согласно песне, тополиный пух сочетается с жарой и звёздными ночами?

Июль

Согласно поговорке, какое животное демонстрирует самый ужасный почерк (по крайней мере, лапой)?

Курица

Ещё более сложная задача — замеры в областях, куда более эфемерных: цитаты, отсылки, сюжеты, бытовой и социальный контекст. Для этого мы придумали специальный тип вопросов, который требует оценки, сравнения, синтеза разных контекстов. Самый очевидный кластер таких задач — вопросы про сюжетные детали или какие‑то особенности фильма, книги, культурного явления, сформулированные так, чтобы человек без труда понимал, о чём речь. Для модели это намного сложнее, ведь в трейн‑датасете она такого не видела.

Здесь пригодились вопросы с вариантами ответов.

Какие приёмы используют мультипликаторы «Ну, погоди!», чтобы подчеркнуть негативный образ Волка?

Волк ведёт себя по‑хамски, имеет вредные привычки

Волк использует нецензурную брань

Волк состоит в преступном клане

У Волка много татуировок тюремной тематики

Волк ведёт себя по‑хамски, имеет вредные привычки

Взаимоотношения Новосельцева и Калугиной в «Служебном романе» скорее похожи на взаимоотношения каких персонажей?

Скруджа и денег («Утиные истории»)

Катарины и Петруччо («Укрощение строптивой»)

Колобка и Лисы

Анны Карениной и поезда

Катарины и Петруччо («Укрощение строптивой»)

К персонажу из какого мультфильма отсылает образ Совуньи из «Смешариков»?

«Винни‑Пух»

«Карлик Нос»

«Конь БоДжек»

«Тайна третьей планеты»

«Винни‑Пух»

На всех этапах разработки бенчмарка мы задавали много вопросов моделям, чтобы в итоге наш бенчмарк оказался достаточно сложным и нетривиальным.

Валидируем бенчмарк и думаем о возрасте

Как только мы собрали тестовый кусочек бенчмарка на 200 вопросов, сразу протестировали на нашей команде. Этот замер подсветил смещение нашего мини‑бенча по возрастному критерию. Первая версия была сильно смещена скорее в 30+, так что мы задумались о необходимости выравнивания ситуации и ввели в классификацию вопросов категорию возраста. Например, люди младше 30 лет чаще не узнают отсылки к советскому кинематографу, а старше 30 — могут не узнать мемы и подростковый сленг.

Сначала мы разделили вопросы на две категории: те, которые скорее будут понятны людям 30+, и те, которые скорее будут понятны людям 30–. Но довольно быстро поняли, что существует множество областей и тем, в которых одинаково хорошо ориентируются обе группы. Так появилась категория «все».

Вопросы из категории 30+:

Что, согласно рекламе, купила бы ваша киска?

Вискас

Кто в «Ералаше» говорит: «Здесь рыбы нет»?

Директор стадиона

Что нужно сделать с бумажным автобусным билетом, если сумма первых трёх цифр его номера равняется сумме последних трёх цифр?

Съесть его

Вопросы из категории 30−:

Кто, согласно мему, кродёться?

Мыш

Каким современным сленговым словом называют того, кто не принадлежит ни к каким субкультурам, не страдает ментальными расстройствами, ничем особо не увлечён?

Нормис

Что значит фраза «это просто пипяо»?

Случилось нечто ужасное или неприятное

Вопросы для всех возрастных категорий:

Как в разговоре могут назвать резервную копию данных на локальном или удалённом носителе?

Бэкап

Кого надо позвать, если у нас отмена?

Галю

Согласно Маяковскому, если звёзды зажигают, кому это нужно?

Кому‑нибудь

Масштабируемся

Первые два захода мы делали с небольшими пулами вопросов по схеме: выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем. После того как мы наконец отладились по составу, формату и смыслам, настала пора масштабироваться — увеличивать полноту и размер бенча.

Темы для вопросов и сами формулировки этих вопросов нам собирала большая команда AI‑тренеров. Когда материал был набран, мы его отшлифовали, привели к общему формату, проверили на репрезентативность и разнообразие.

Сравниваем человека и нейросеть

В итоге у нас получился бенчмарк на 2000 самых разнообразных вопросов — настало время финальной проверки! Мы предложили ответить на вопросы бóльшему количеству AI‑тренеров. В разметке приняли участие 211 человек, а каждый вопрос проходил через пять разных тренеров.

Кстати, такая проверка помогла найти и починить последние опечатки и неточности в вопросах и ответах нашего бенчмарка. Например, если ни один из пяти человек не ответил на какой‑то вопрос, скорее всего, с вопросом что‑то не так. Важный момент: при ответах на вопросы нельзя было искать информацию в интернете — чтобы было честно.

Столбцы — количество исполнителей по годам рождения (округляем до 5). Линии показывают среднюю долю правильных ответов исполнителей по возрасту: оранжевая — на вопросы 30–, зелёная — на вопросы 30+. Ось справа относится к линиям — скоры, а по оси слева можно увидеть количество исполнителей.

В итоге средний скор у AI‑тренеров — 78% правильных ответов. На это число нам и предстоит ориентироваться в дальнейших замерах. В идеале, конечно же, у модели должен быть результат выше, чем у людей, ведь она многократно видела весь интернет и точно могла бы узнать и понять наш культурный код.

Пока мы решили не открывать итоговый вариант культурного бенчмарка для сообщества. Дело в том, что мы очень переживаем за протечки и переобучение на него. Даже для нашей команды ML мы показываем лишь небольшую часть этого бенчмарка.

Последние замеры по нашему бенчмарку выглядят так:

Замер по людям	YandexGPT Pro 4
78%	63%

Нам точно есть куда расти и чему ещё обучать нашу YandexGPT:)

Так как YandexGPT используется для Поиска с Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, нам важно, чтобы наша LLM знала «русскую душу» и могла интерпретировать и генерировать запросы, учитывая культурные особенности и предпочтения аудитории. Так мы можем быть уверены, что нейросеть способна создавать контент и генерировать ответы, которые будут понятны большинству пользователей разных поколений и социальных кругов.

ссылка на оригинал статьи https://habr.com/ru/articles/868282/