Современные технологии искусственного интеллекта (ИИ) становятся неотъемлемой частью разработки видеоигр, предоставляя новичкам в разработке видеоигр новые инструменты для быстрого поиска информации и обучения необходимым навыкам.
Среди таких технологий особое внимание привлекают большие языковые модели, такие как GPT-4o mini и GigaChat Max, которые могут ускорить процесс обучения. Однако для разработчика выбор между этими инструментами может быть сложной задачей, требующей учета их особенностей, производительности и применимости в конкретных задачах. В данном эссе будет проведено сравнительное исследование GPT-4o mini и GigaChat Max с точки зрения разработчика видеоигр, чтобы выявить их преимущества и недостатки относительно друг друга для использования в обучении.
Нейросети будут сравниваться по нескольким критериям, таким как:
-
Доступность и цена — критерий, который определяет, насколько доступна языковая модель для пользователя. Даже если одна модель опережает другую по остальным критериям, но недоступна для пользователя, то считать ее лучше нельзя, так как у пользователя просто может не быть к ней доступа.
-
Различия в возможностях языковых моделей — критерий, который показывает, какие особенности есть у нейросетей. Важно учитывать этот критерий, ведь различный функционал может ускорить процесс получения необходимых знаний и навыков. Например, возможность работы с текстовыми файлами может позволить сделать краткую выжимку файла и быстрее получить нужную информацию.
-
Бенчмарки (в целом) — критерий, в котором производится сравнение нейросетей по бенчмаркам, который затрагивают различные области знаний, суммарно показывающий общий уровень нейросети, что важно учитывать, так как разработка видеоигры включает в себя множество различных областей.
-
Бенчмарки (программирование и математика) — критерий, в котором нейросети сравниваются отдельно по бенчмаркам, связанным с программированием и математикой, так как обучение в этих областях может быть крайне сложным и трудозатратным. Поэтому важно уделить отдельное внимание данным областям.
Доступность и цена являются одним из важнейших показателей при выборе языковой модели.
-
Обе языковые модели можно использовать абсолютно бесплатно, что позволяет пользоваться данными сервисами вне зависимости от финансовой ситуации.
-
С GPT-4o mini можно взаимодействовать через сайт, в то время как доступ к GigaChat Max можно получить через сайт и официального telegram-бота.
-
Для полноценного использования GigaChat Max потребуется российский IP-адрес и авторизация через Сбер ID, что требует российского номера телефона. Для использования GPT-4o mini требуется email адрес, также доступ к данной нейросети есть только в некоторых странах.
Учитывая эти особенности, можно сделать вывод, что для пользователя из России получить доступ к GPT 4o-mini труднее чем к GigaChat Max. Для пользователей из других стран ситуация противоположна.
При выборе модели важно оценивать ее возможности, к сожалению, и OpenAl и Sber не предоставляют данных об одном из самых важных параметров — размере языковой модели. Но нейросети все еще можно сравнить по некоторым другим параметрам, которые могут повлиять на выбор нейросети.
Важно отметить, что первым параметром в таблице является количество символов в одном токене и выбор языковой модели не должен основываться на этом параметре.
Характеристика |
GPT-4o mini |
GigaChat Max |
Токен |
||
Размер контекста в токенах |
||
Максимальная длина одного ответа |
16 тысяч токенов |
~4 тысячи символов |
Работа с изображениями |
да |
да |
Работа с текстовыми файлами |
да |
да |
Работа с таблицами |
да |
нет |
Возможность генерировать изображения |
бесплатно, 2 изображения день |
бесплатно, неограниченное количество раз |
Данные таблицы показывают, что GPT-4o mini уступает лишь в одном параметре: возможности генерировать изображения. Однако, во всех остальных параметрах GPT-4o mini показывает себя лучше или наравне с GigaChat Max. Размер контекста в токенах у GPT-4o mini больше в 4 раза по сравнению с его соперником, что позволяет взаимодействовать с большими объемами информации и лучше отвечать на запросы пользователя. К тому-же у GPT-4o mini приблизительно в 16 раз больше максимальная длина одного ответа. Различия в этом параметре очень хорошо видны, когда обеим нейросетям задается развернутый вопрос. GPT-4o mini дает более развернутые и комплексные ответы,
Также важным различием является возможность работы с таблицами, которой нет у GigaСhat Max, что может несколько усложнить работу с таблицами.
Следует отметить, что в таблице не представлены максимальные размеры файлов, с которыми могут работать нейросети. Данные не отражены в таблице ввиду не структурированности информации. OpenAI и Sber предоставляют некоторую информацию, однако систематизировать ее непросто.
Важными показателями эффективности языковой модели являются бенчмарки. Все результаты бенчмарков были взяты из трех источников: сайт OpenAI с информацией о GPT-4o mini, документация GigaChat Max от Sber, сайт MERA.
В данной таблице указаны результаты нейросетей для общего бенчмарка MMLU и его русскоязычной версии ruMMLU. Также в таблице приведена общая оценка языковых моделей от MERA, включающая в себя большое количество задач.
Бенчмарк |
GPT-4o mini |
GigaChat Max |
MMLU |
0.82 |
0.80 |
ruMMLU |
0.652 |
0.718-0.75 |
Общая оценка модели от MERA |
0.57 |
0.588 |
Исходя из данных, можно заметить, что обе нейросети показывают практически идентичные результаты как в бенчмарке MMLU, так и в оценке от MERA. В бенчмарке ruMMLU точность языковых моделей падает, однако GigaChat Max показывает более высокий результат, что может являться результатом лучшего понимания русского языка.
Учитывая то, что сравнение производится с точки зрения разработчика видеоигр, важно уделить особое внимание программированию и математике, так как обе эти области критически важны при разработке компьютерной игры и иногда могут являться большим препятствием для начинающего разработчика.
Первая таблица предоставляет результаты бенчмарков, связанных с программированием. Бенчмарк ruCodeEval является российским аналогом HumanEval. BPS и LCS также являются русскоязычными бенчмарками.
Бенчмарк |
GPT-4o mini |
GigaChat Max |
HumanEval |
0.872 |
0.64 |
ruCodeEval |
0.704 / 0.753 / 0.768 |
0.077 / 0.093 / 0.098 |
BPS |
0.965 |
0.977 |
LCS |
0.108 |
0.192 |
Исходя из данных таблицы, можно заметить, что GigaChat Max показывает крайне низкие результаты в бенчмарке ruCodeEval, несмотря на неплохой результат в тесте HumaEval. Также нейросети показывают практически идентичный результат в бенчмарке BPS и Gigachat Max заметно опережает GPT-4o mimi в тесте LCS. В целом GPT-4o mini показывает лучшие результаты в тестах, что может стать причиной выбора именно этой языковой модели.
Вторая таблица предоставляет результаты бенчмарков, связанных с математическими способностями моделей. Из всех бенчмарков, представленных в таблице, англоязычным бенчмарком является лишь MATH, он же и является самым сложным из тестов, включающим в себя задачи вплоть до университетского уровня.
Бенчмарк |
GPT-4o mini |
GigaChat Max |
MATH |
0.702 |
0.53 |
MathLogicQA |
0.454 |
0.575 |
ruMultiAr |
0.301 |
0.362 |
ruModAr |
0.495 |
0.938 |
Исходя из данных таблицы, можно сделать заключение, что GigaChat Max справляется с базовыми задачами на русском языке лучше, чем GPT-4o mini. Однако, GigaChat Max проигрывает в тесте MATH, показывая проблемы, которые испытывает данная языковая модель с задачами на английском языке.
Учитывая все, что написано выше, можно отметить, что обе языковые модели имеют как плюсы, так и минусы относительно друг-друга и назвать лучшую модель для всех случаев нельзя. GPT-4o mini имеет больший функционал, показывает лучшие результаты во всех англоязычных тестах, размер контекста нейросети больше в 4 раза, однако, данная языковая модель недоступна на территории России. GigaChat Max в основном показывает лучшие результаты в русскоязычных текстах, показывает себя хуже чем GPT-4o mini в задачах, связанных с программированием. Но в среднем эта языковая модель немного отстает от своего противника.
Для пользователей которые не знают русский язык и/или не живут в России выбор между нейросетями очевиден. GPT-4o mini лучше показывает себя в англоязычных тестах, является более доступным и обладает большим функционалом.
Для пользователей из России выбрать языковую модель будет труднее. Учитывая то, что получить доступ к GigaChat Max проще, а также лучший результат в русскоязычных тестах, данная нейросеть становится привлекательным вариантом. Однако, следует учитывать, что GPT-4o mini решает сложные задачи лучше, и, в некоторых ситуациях, особенно если пользователь знает английский язык, GigaChat Max может быть менее выгодным выбором, несмотря на свои преимущества. В данном случае выбирать нейросеть лучше исходя из задач и их сложности, в некоторых случаях GPT-4o mini будет лучше, в некоторых — GigaChat Max.
ссылка на оригинал статьи https://habr.com/ru/articles/872446/
Добавить комментарий