LLM-модели от RWB вошли в топ-3 и топ-5 русскоязычного рейтинга MERA

от автора

Дообученная специалистами RWB (объединённая компания Wildberries & Russ) большая языковая модель BerryLM-XL вошла в топ-3 текстового рейтинга MERA. Как сообщили информационной службе ХАбра в RWB, по итогам тестирования модель получила интегральную оценку 0,835. Этот результат близок к показателям моделей Anthropic и OpenAI. Эталонная оценка Human Benchmark, основанная на ответах людей на те же задания, составила 0,852.

MERA (Multimodal Evaluation for Russian-language Architectures) — открытый независимый бенчмарк для оценки моделей, работающих с русским языком. В текстовом рейтинге используют единую методику с фиксированными заданиями и параметрами. Платформа также включает оценку работы с кодом, отраслевыми задачами и мультимодальными данными.

На момент публикации BerryLM-XL занимает третье место в общем рейтинге MERA и второе среди ИИ-моделей. Итоговый балл складывается из 15 заданий. Они проверяют работу с русским текстом, применение знаний и решение логических и прикладных задач. В топ-5 также входит другая модель RWB — BerryLM-v2. Её оценка составляет 0,810, она занимает пятое место.

Модели семейства BerryLM используют в продуктах Wildberries. Они работают в ИИ-ассистенте для покупателей, в поиске и сравнении товаров, а также в инструментах для продавцов, которые помогают отвечать на отзывы и вопросы. Также модели применяют для автоматизации внутренних процессов RWB. По оценке компании, их использование даёт более 1 млрд рублей дополнительной выручки в год.

Директор по данным RWB Павел Раваев отметил, что компания учитывает не только место моделей в бенчмарках, но и их работу в продуктах. По словам Павла Раваева, модели дообучают под задачи маркетплейса, включая поиск, сравнение товаров и инструменты для продавцов, а результат оценивают по продуктовым и бизнес-меткам. Директор по данным RWB добавил, что результаты MERA подтверждают уровень решений и их применение в повседневных задачах.

ссылка на оригинал статьи https://habr.com/ru/articles/1052018/