Тестируем YandexGPT-5: когда хотелось быть ChatGPT, но в душе всё ещё Алиса

от автора

ИИ‑модели сменяют друг друга быстрее, чем новые айфоны. Теперь даже технологические гиганты предпочитают не строить модели с нуля, а брать за основу существующие решения и дообучать их под свои задачи. Вот и «Яндекс» не стал исключением: его новая модель YandexGPT-5, по сути, выросла из Qwen-2.5 — китайской нейросети, разработанной Alibaba.

Компания уверяет, что «пятый» не уступает ChatGPT-4o, а ещё — теперь умнее, логичнее, креативнее и кодит лучше предыдущих версий. Но прежде чем кивать на пресс‑релизы, давайте разберёмся: действительно ли YandexGPT-5-Pro в одной лиге с конкурентами или же это хорошая упаковка для всё того же «бота с российским паспортом»?

YandexGPT-5 — что за зверёк такой?

25 февраля 2025 года «Яндекс» представил свою новую ИИ‑модель YandexGPT-5. В дополнение к ней вышла облегчённая версия — YandexGPT-5-Lite, которую можно найти на HuggingFace.

Что под капотом YandexGPT-5? В последние годы стало ясно, что обучение языковых моделей — дело не только сложное, но и безумно дорогое. В результате многие компании предпочитают брать уже существующую открытую модель, дообучать её на своих данных и выпускать под своим брендом. Именно так поступил и «Яндекс» — его инсайдеры подтверждают, что YandexGPT-5 строился на базе китайской Qwen-2.5 потому, что та неожиданно показала лучшие результаты на русском языке, чем актуальные версии яндексовских моделей. Кстати, аналогичный подход использовал «Т‑Банк», выпустив свои T‑Lite и T‑Pro, также основанные на Qwen-2.5. Всё это значительно удешевляет процесс: вместо сотен мощных видеокарт теперь можно обойтись всего несколькими десятками (а иногда и единицами) GPU.

Что изменилось? YandexGPT-5 теперь лучше понимает не только русский, но и английский (доля англоязычных данных в датасете выросла с 14 до 30%). Хотя, как мне удалось обнаружить, модель может общаться и на других языках — неясно, почему компания акцентирует лишь на английском, ведь можно попросить её выдавать ответы и на множестве других языков. Вдобавок «Яндекс» заявляет, что обновлённый ИИ стал лучше писать код, решать логические задачи и выдавать более креативные решения.

Длина контекста осталась на уровне предыдущей, 4-й модели. Последний раз она увеличивалась в YandexGPT-4 — тогда контекст растянули с 8000 (YandexGPT-3) до 32 000 токенов. Для сравнения, другие сегодняшние модели часто имеют больший контекст: у ChatGPT-4o и DeepSeek‑r1 — 128 000 токенов, у Claude-3.7 — 200 000 токенов. Правда, в компании отмечают, что модель оперирует оптимизированным словарём токенов, благодаря чему 32 000 единиц у YandexGPT-5-Pro соответствуют 48 000 токенам модели Qwen-2.5–32-Base.

Что говорят бенчмарки

По данным «Яндекса», новая нейросеть YandexGPT-5-Pro сопоставима по качеству ответов с ChatGPT-4o и в 64% случаев превосходит китайскую Qwen‑2.5–32B‑Instruct в решении стандартных задач. В частности, она даёт более точные ответы на фактовые вопросы, лучше следует инструкциям, однако математика — её слабое место.

Если взглянуть на бенчмарки, видно, что разница между сопоставляемыми моделями не столь велика:

  • MMLU (тест на знания по гуманитарным и техническим дисциплинам на уровне школы и вуза) дал YandexGPT-5-Pro 83% — на одном уровне с Qwen-2.5–32B‑Instruct и всего на 3% ниже, чем у ChatGPT-4o.

  • MMLU PRO, проверяющий более сложные вопросы, показал 68% — снова практически идентично результатам Qwen-2.5 и 4o.

  • DROP RU — русскоязычная адаптация бенчмарка DROP, оценивающая способность понимать тексты и извлекать информацию, — показала у YandexGPT-5-Pro точность 63%. Это лучше, чем у Qwen (+2%), но хуже, чем у ChatGPT (-5%).

  • IFEval RU, тест на понимание структурированных данных на русском языке, показывает 77% — здесь YandexGPT-5-Pro даже немного обходит конкурентов.

Но вот с HUMAN EVAL, проверяющим навыки программирования, всё неоднозначно. На графике YandexGPT-5-Pro почти сравнялся с ChatGPT-4o, но, если копнуть глубже, результаты тестов показывают, что он часто выдаёт нерабочий код. Так что к программированию «пятёрка» вряд ли готова — генерируемый код работает далеко не всегда.

Как получить доступ к YandexGPT-5-Pro

Всё, что нужно сделать, — это перейти на сайт «Алисы» (понадобится аккаунт в «Яндексе»). Сразу после этого в левом верхнем углу можно выбрать интересующую версию модели:

Конечно, я выбрал максимум возможностей — YandexGPT-5-Pro, чтобы по полной протестировать новую разработку компании.

Кстати, на старте, в бесплатном режиме, доступно 20 запросов в день, если хочется больше — требуется «Про»‑подписка.

Но есть и ещё несколько способов обратиться к YandexGPT-5: это мобильные приложении «Алиса» и «„Яндекс“ — с „Алисой“», «Яндекс браузер» (мобильный и десктопный), а также разные умные устройства компании.

Для разработчиков предусмотрена API‑версия, доступная в Yandex Cloud AI Studio, а также интеграция модели в Yandex SpeechSense — сервис анализа коммуникаций.

Тесты YandexGPT-5-Pro и сравнения с ChatGPT-4o и Qwen-2.5-72B-Instruct

Для тестирования нейросети я подготовил несколько вопросов. Сравнивать её буду с двумя другими: это ChatGPT-4o и Qwen-2.5-72B‑Instruct.

Почему именно эти модели? Во‑первых, они тоже нерассуждающие. Кроме того, ChatGPT-4o — одна из самых популярных ИИ сегодня, да и «Яндекс» не раз сравнивал свой новый движок именно с ним, — хотелось убедиться, что это действительно так. Qwen-2.5-72B‑Instruct тоже тесно связана: YandexGPT-5-Pro, как упоминалось, построена на основе схожей версии, дистиллята Qwen-2.5–32B‑Instruct. Ну и в общем, большинство современных LLM уже рассуждающие, так что круг конкурентов сузился сам собой.

Итак, начнём. Я подготовил 7 вопросов — причём все они являются уникальными, чтобы избежать случаев, когда у модели уже теоретически могут быть готовы ответы (ведь если бы эти вопросы уже были в интернете, модель могла бы знать о них заранее).

Какие тесты прошли модели:

  • Составление заголовков к тексту;

  • Рерайт текста;

  • Контент‑план для телеграм‑канала зоомагазина;

  • Написание игры — змейка (HTML/CSS/JS);

  • Вторая игра — тетрис (HTML/CSS/JS);

  • Создание описаний к новым сериям «Офиса»;

  • Логико‑математическая задача: пароль от лаборатории.

Ответы приводятся скриншотами, иногда — в виде исходного кода и интерактивных веб‑страниц (CodePen).

Стоит отметить один из минусов YandexGPT-5-Pro — он немультимодален, модель не умеет анализировать изображения и документы. Поэтому все промты будут только в виде текста (несмотря на то что один из оппонентов, 4o, поддерживает мультимодальный ввод).

Составление заголовков к тексту

Придумай десять заголовков для этой статьи.

———-

Кофе — не просто напиток, а неотъемлемая часть повседневной жизни миллионов людей. От ароматного эспрессо до нежного латте, его приготовление превратилось в искусство, где технологии играют ключевую роль. За последние десятилетия кофеварки прошли путь от простых гейзерных устройств до умных гаджетов, способных подстраиваться под индивидуальные предпочтения.

От кипячения к кастомизации: краткая история кофеварок

В середине XX века первые электрические кофеварки упростили процесс заваривания, заменив ручные методы. Однако настоящая революция началась с появления капсульных систем в 90-х, которые предложили скорость и разнообразие вкусов. Сегодня рынок переживает новый виток: устройства с поддержкой вайфая, датчиками помола и мобильными приложениями позволяют не только варить кофе одним касанием экрана, но и анализировать привычки пользователей.

Экология в каждой чашке

Производители всё чаще делают ставку на устойчивое развитие: например, Nespresso внедряет перерабатываемые алюминиевые капсулы, а Bosch разрабатывает модели с пониженным энергопотреблением. Тем не менее споры вокруг одноразовых капсул продолжаются — критики отмечают, что переход на многоразовые фильтры или френч‑прессы остаётся самым экологичным выбором.

Умные технологии и будущее кофепития

Современные кофеварки, такие как Sage Oracle Touch, объединяют функции баристы и робота: они автоматически перемалывают зёрна, взбивают молоко и даже обучаются через ИИ, запоминая любимые рецепты. Тренд на персонализацию набирает обороты — уже к 2026 году ожидается рост рынка умных кофемашин на 25%. Эксперты прогнозируют интеграцию с умным домом: представьте, что ваше устройство начинает готовить капучино, как только вы отключаете будильник на смартфоне.

Заключение

Кофеварки перестали быть просто кухонной техникой, превратившись в символ баланса между традицией и инновациями. Они экономят время, снижают нагрузку на природу и дарят свободу экспериментов — будь то редкий сорт из Эфиопии или авторский рецепт с корицей. Какой будет следующая глава в этой эволюции? Пока ясно одно: утро начинается не с кофе, а с технологии, которая его готовит.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Что тут можно сказать? Ответы YandexGPT-5-Pro кажутся более современными и соответствующими тому, что принято называть инфостилем. Не менее чем половина ответов нейросетей‑оппонентов выглядят более консервативно, и их скорее можно встретить в печатных газетах, чем современных интернет‑изданиях.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★★☆

Рерайт текста

В релизах YandexGPT не раз подчёркивалось, что эта модель лучше адаптирована для русскоязычных контекстов. Кроме того, как мы увидели в результатах бенчмарка DROP RU, текущая модель примерно соответствует уровню Qwen-2.5–32B‑Instruct и ChatGPT-4o. Давайте убедимся во всём этом в задаче на переписывание рекламного текста.

Задание немного необычное — оно предполагает рерайт текста от лица рекламируемого товара. Я не указывал, насколько рерайт должен соответствовать оригиналу, поэтому посмотрим, как модели интерпретировали запрос.

Перепиши этот рекламный текст от лица лампы.

———-

Умная лампа «Люминова-Про» — это революция в освещении для дома и офиса. Благодаря технологии Adaptive Spectral Sync, устройство автоматически подстраивает цветовую температуру (от 1800 K до 6500 K) под ваш циркадный ритм, улучшая качество сна.

Ключевые особенности:
• Энергоэффективность — потребляет на 60% меньше энергии, чем аналоги, с сертификатом EnergyStar++.
• Голосовое управление — полная совместимость с голосовыми помощниками.
• Экодизайн — корпус из переработанного алюминия и биоразлагаемая упаковка.
• Режимы освещения — «Фокус», «Релакс» и «Кинотеатр», с точностью цветопередачи 98% (CRI).
• Мобильное приложение — персонализация через нейросеть, анализирующую ваши привычки.

Для кого это?

Идеально для дизайнеров, работающих из дома, родителей, заботящихся о здоровье детей, и экоэнтузиастов. В комплекте — пожизненная гарантия и бесплатная замена при любом заводском браке.

Философия бренда: освещение должно не просто работать, а улучшать качество жизни, не жертвуя планетой.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

На первый взгляд, ответ YandexGPT-5-Pro кажется более динамичным и современным, но, если присмотреться, он примерно на одном уровне с ChatGPT-4o — разница лишь в стиле подачи; один немного живее, другой формальнее, но оба справились на твёрдую четвёрку. А вот Qwen-2.5-72B‑Instruct заметно слабее: встречаются штампы, речевые шероховатости и в целом текст выглядит менее естественным.

YandexGPT-5-Pro: ★★★★☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ★★★☆☆

Контент-план для телеграм-канала зоомагазина

Ты специалист по контент‑маркетингу. Составь подробный контент‑план (с описаниями) для телеграм‑канала зоомагазина.

YandexGPT-5-Pro

Скрытый текст

ChatGPT-4o

Скрытый текст

Qwen-2.5-72B-Instruct

Скрытый текст

Оба фаворита, YandexGPT-5-Pro и ChatGPT-4o, предложили детальные и разноплановые контент‑стратегии, охватывая не только продуктовые посты, но и интерактивные форматы, причём их подходы местами сильно различаются (несмотря на значительную длину, предполагающую бо́льшую вероятность повторений). Qwen-2.5-72B‑Instruct тоже справился неплохо, но его план менее креативен.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Написание игры: змейка

Хотя, по заверениям «Яндекса», новый YandexGPT-5-Pro гораздо лучше справляется с написанием кода, тем не менее многие пользователи заявляют, что ничего не изменилось и она пишет код «всё так же плохо», как прошлая версия (привет, жестокий мир). Кто же на самом деле прав и как дела обстоят в действительности?

Напиши веб‑версию игры: змейка (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки, а также WASD.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Итак, начнём с неутешительного результата YandexGPT-5-Pro… в котором игра попросту не запускается. Каждый матч тут выглядит идентично: появляется зародыш змейки, один‑два фрукта, затем они поочерёдно исчезают, а спустя пару секунд всплывает торжественное «Игра окончена! Ваш счёт: 0» (я закомментил эту строку на CodePen, так как алерт выводится в верхнеуровневом окне, прямо на «Хабре»). К слову, сама модель иногда честно признаётся: «Я пока не эксперт в программировании, но постараюсь помочь» — видимо, стоит воспринимать это буквально.

Кстати, исходный код в интерфейсе YandexGPT-5-Pro не имеет подсветки, а ешё его нельзя скопировать одной кнопкой (нужно выделять вручную). Вообще говоря, эти моменты довольно‑таки несложны с точки зрения реализации, поэтому их я бы исправил в первую очередь, например привинтив в черновом режиме какую‑нибудь веб‑библиотеку для автоопределения и автоподсветки кода. Например, в ChatGPT так и сделано — язык определяется на ходу (и иногда это выглядит кривовато, но лучше, чем ничего).

Минус‑два: количество токенов, выводимых за одно сообщение, очень ограничено. При этом здесь даже не появилось сообщения о продолжении — текст исходного кода просто обрубался после вывода энного количества токенов. Повезло, что можно попросить нейросеть продолжить вывод (например, написав «Сообщение обрезалось, продолжи»), именно так я и поступил.

Теперь к оппонентам. Их результаты примерно схожи, немного различаются дизайном (цветами и присутствием индикатора счёта), но из‑за различия в обработке значений event.key/event.keyCode Qwen-2.5-72B‑Instruct поддерживает ввод WASD только при английской раскладке, в то время как в версии ChatGPT-4o он не зависит от языка. Поэтому генерации от 4o большой плюсик в виде дополнительного балла.

В общем, в очередной раз делаем вывод, что без режима рассуждений сегодня LLM‑моделям в программировании делать уже нечего, от слова «совсем». Ждём YandexGPT-6, скрестив пальцы.

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Ещё одна игра: тетрис

Напиши веб‑версию игры: тетрис (на HTML+CSS+JavaScript, одним HTML‑файлом). Для управления применяются клавиши‑стрелки и WASD, для поворота фигуры — пробел.

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Здесь запустилась только версия ChatGPT-4o. В ней всё хорошо: она правильно обрабатывает падение фигур, стирает заполненные ряды, а также поддерживает ускоренное опускание клавишей «Вниз» (что особенно приятно, ведь написать об этом в промте я позабыл).

Версия YandexGPT-5-Pro не завелась по ряду причин. Если в подробностях (благодарю ChatGPT‑o3-mini‑high за ускоренный разбор ошибок):

  • Первые пять фигур переданы как двумерные массивы, а следующие (как раз с того момента, где модель продолжила вывод) — как одномерные. В результате код падает, например, при обращении shape[y0][x0] в функции checkCollision(), так как запрашивается несуществующий элемент.

  • Используется константа SHAPE_SIZE = 4, хотя некоторые фигуры (например, квадрат 2×2) имеют другой размер. Это приводит к тому, что циклы перебора всегда идут от 0 до 3, что может как выйти за пределы массива, так и пропустить часть фигуры.

  • Переменная dropInterval изначально содержит число в миллисекундах, передаваемое в setInterval(moveDown, dropInterval), однако затем её используют в качестве идентификатора таймера для последующего вызова clearInterval(dropInterval). Кроме того, каждый раз при смене уровня создаётся новый интервал, не очищая предыдущий, что может привести к одновременному выполнению нескольких таймеров.

  • Плюс несколько других ошибок, например if(shapey0x0) вместо if(shape[y0] && shape[y0][x0]).

  • И напоследок, особенно понравились «строки сомнения» const newShape = ; и newShapey = ;, — где константе присваивается «ничего» (а также переменная объявляется в глобальном контексте window).

Анализ кода тетриса YandexGPT-5-Pro, выполненный через o3-mini-high

Сгенерированная через Qwen-2.5-72B‑Instruct тоже не запустилась, но ошибки были другими:

  • В массиве PIECES используются переменные Z, S, T, O, L, I, J, хотя они ещё не определены — их объявление находится ниже.

  • В функции control() предусмотрено условие для клавиши W, однако в прототипе Piece отсутствует реализация метода moveUp.

  • В методе Piece.prototype.lock() при обнаружении ситуации «Game over» делается присвоение, но переменная gameOver не была ранее объявлена. Аналогичная проблема при проверке if(!gameOver) в функции drop().

  • Функция drawNext() пытается нарисовать следующую фигуру в области, заданной координатами (330, 10) и размерами 100×100, но ширина канвы составляет 300 пикселей, поэтому область находится за её пределами.

Анализ кода тетриса Qwen-2.5-72B-Instruct через o3-mini-high

Ищете нейромодели, заточенные под программирование? В нашем агрегаторе нейросетей BotHub есть рассуждающие Claude-3.7 и o3-mini‑high, доступные без ВПН.

Здесь оценки очевидны:

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★☆☆☆☆

Создание описаний к новым сериям «Офиса»

Придумай сюжеты‑описания для новых 10 серий сериала «Офис» («The office», 2005–2013).

YandexGPT-5-Pro

Скрытый текст

ChatGPT-4o

Скрытый текст

Qwen-2.5-72B-Instruct

Скрытый текст

Оценивать креативные задания, как всегда, непросто, и всё же здесь ответы ChatGPT и YandexGPT чуть более креативные, чем у Qwen: их идеи выглядят ярче, лучше передают настроение оригинала и представляют героев в правдоподобных (и забавных) ситуациях. Сюжеты Qwen кажутся менее оригинальными.

YandexGPT-5-Pro: ★★★★★
ChatGPT-4o: ★★★★★
Qwen-2.5-72B‑Instruct: ★★★★☆

Пароль от лаборатории

Нередко мы запоминаем пароли и коды не напрямую, а через ассоциации. Но хоть и имея на руках набор таких правил, вычислить исходный шифр — серьёзный вызов для нейросетей. Настолько серьёзный, что он даже поломал Qwen.

Логико‑математическая задача: пароль от лаборатории

В секретной лаборатории хранятся важные исследования, и доступ к ней защищён сложной системой: для входа нужно ввести четырёхзначный код.

Известно следующее:
— Код состоит из четырёх различных цифр.
— Если поменять местами первую и последнюю цифры, число увеличится на 1998.
— Сумма первой и третьей цифры равна сумме второй и четвёртой цифр.
— Разность второй и третьей цифр равна первой цифре.
— Сумма всех цифр кода — 18.

Какой код открывает дверь в лабораторию?

Для решения этой задачи важно умение разбирать системы неявных уравнений, анализировать возможные четырёхзначные комбинации, в поисках решения исключать неподходящие варианты, а также, конечно, предоставлять пошаговый процесс решения (потому что этот формат технически близок к рассуждениям, а без этого в решении математики и логики винтики у LLM не закрутятся).

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Скрытый текст

Qwen, увы, не смог решить задачу, застряв в бесконечном рассуждении (надеюсь, ваша видеокарта в порядке после просмотра этого скриншота), причём модель несколько раз возвращалась к предыдущим своим ответам, уже отмеченным как неправильные. Кстати, эта неполадка встречается до сих пор — у новой модели Qwen‑QwQ-32B. В качестве решения реддиторы предлагают установить температуру в 0,6, а значение TopP — в 0,95.

ChatGPT-4o почти пришёл к правильному решению — не было соблюдено одно условие: в предоставленном коде 3465 разность второй и третьей цифр на самом деле неравна первой цифре.

И YandexGPT-5-Pro тоже не справился с задачей — здесь, напротив, соблюдено лишь одно из пяти условий (все цифры должны быть разными).

Что ж, похоже, эта задача под силу только рассуждающим моделям (к примеру, o3-mini‑high её смогла решить). Кстати, правильный ответ тут один: 2574. Оценки выставлены на основе того, какое количество из пяти условий исходной задачи было соблюдено.

YandexGPT-5-Pro: ★☆☆☆☆
ChatGPT-4o: ★★★★☆
Qwen-2.5-72B‑Instruct: ☆☆☆☆☆

Таблица результатов

 

YandexGPT-5-Pro

ChatGPT-4o

Qwen-2.5-72B-Instruct

Составление заголовков к тексту

★★★★★

★★★★☆

★★★★☆

Рерайт текста

★★★★☆

★★★★☆

★★★☆☆

Контент-план для телеграм-канала зоомагазина

★★★★★

★★★★★

★★★★☆

Написание игры: змейка

★☆☆☆☆

★★★★★

★★★★☆

Написание игры: тетрис

★☆☆☆☆

★★★★★

★☆☆☆☆

Создание описаний к новым сериям «Офиса»

★★★★★

★★★★★

★★★★☆

Пароль от лаборатории

★☆☆☆☆

★★★★☆

☆☆☆☆☆

ИТОГО

22/35 баллов

32/35 балла

20/35 баллов

Итак, вот финальный рейтинг: ChatGPT-4o в протестированных задачах лидирует с отрывом. YandexGPT-5-Pro, как и Qwen-2.5-72B‑Instruct, просели в основном в задачах по программированию и математике, поэтому на сегодняшний день 4o остаётся более универсальной моделью. Однако в направлении русскоязычного контента у YandexGPT-5-Pro хорошие возможности — во многих вещах эта модель может дополнить DeepSeek‑r1.


YandexGPT-5-Pro получился любопытным — он явно лучше предшественников, но до лидеров рынка ещё не дотягивается. С текстами тут всё в порядке, но, когда дело доходит до сложных вычислений, механизм начинает поскрипывать. Пока это скорее эволюция, чем прорыв. Если же нужен универсальный ИИ‑помощник на все случаи жизни… ну, вы знаете, куда идти.

Если работать с русскоязычным контентом — вполне стоит пробовать, однако в этой сдержанной революции кодинг и математика всё ещё остаются ахиллесовой пятой. Известно, что уже сейчас «Алису» обучают рассуждать.

Напишите в комментариях, удалось ли вам уже протестировать YandexGPT-5?


ссылка на оригинал статьи https://habr.com/ru/articles/893128/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *