Телеграм-канал AI4Dev опубликовал результаты исследования команды Chatbot Arena (ранее LMSYS – платформы соревнований LLM в формате чатов). Месяц назад она выпустила плагин copilot для VSCode (один из известных редакторов кода от Microsoft). Внутри него встроена арена оценки различных LLM как копайлотов для программирования.
Работает это так:
-
пользователь в IDE вызывает плагин, чтобы дополнить определенный кусок кода,
-
плагин передает запрос паре случайно выбранных LLM и возвращает два обезличенных ответа,
-
пользователь вслепую выбирает один из двух вариантов ответа, который ему больше подходит,
-
в итоге пользователь получает нужный код (copilot работает бесплатно), а команда LMSYS ― статистику: ответы каких моделей предпочитают разработчики.
На днях команда Copilot Arena опубликовала первые результаты своего исследования. Как водится в мире ИИ, результаты уже слегка устарели ― в день публикации рейтинга вышли новые версии моделей QWEN, которые явно могли бы занять высокие позиции, но по очевидным причинам еще не успели в нем поучаствовать. Тем не менее результаты любопытные. Кажется, это первое исследование моделей (именно в режиме копайлотов) с относительно уверенными статистическими показателями и на настоящем коде.
На основе 10000+ запросов к копайлотам и соответственно голосований (примерно от 200-250 постоянных пользователей в день в течение месяца) удалось составить рейтинг из ТОП-9 моделей.
Из интересных подробностей: чаще всего плагином пользовались питонисты, JS, а только потом все остальные. Медианный размер запросов с кодом в пять раз больше, чем текстовые запросы на обычной арене — 530 токенов против 100.
С деталями расчетов можно ознакомиться в блоге создателей, а новости, обзоры и лекции об ИИ для разработчиков ― в ТГ-канале AI4Dev.
ссылка на оригинал статьи https://habr.com/ru/articles/858912/
Добавить комментарий