Допиливаем InferSim для собственных нужд моделирования загрузки промышленных GPU

Привет, Хабр! Меня зовут Дмитрий, я занимаюсь развитием продукта LLMaaS и сегодня хочу поделиться своим опытом моделирования загрузки оборудования для ML-инференса. Перед нами встала классическая задача: понять, сколько и какого железа закупать под большие языковые модели в условиях нашего сурового российского рынка. Ошибаться нельзя — цены на ускорители сегодня таковы, что одна незапланированная «стройка» может оставить команду без зарплаты. Решили не изобретать велосипед с нуля, а допилить открытый симулятор InferSim от Alibaba. О том, что у нас получилось, и пойдёт речь.

Что такое InferSim и почему он крут

InferSim — это Python-симулятор, который умеет вычислять ключевые метрики LLM-инференса: TTFT (время до первого токена), TPOT (время на каждый следующий токен) и пропускную способность в токенах в секунду. Авторы — ребята из Alibaba, они же разрабатывают vLLM, так что в LLM-инференсе разбираются очень хорошо.

Главная фишка симулятора — двухфазная архитектура:

Фаза 1 (офлайн): на целевом железе прогоняются микро-бенчмарки (через FlashInfer, sglang), которые снимают слепки реальной производительности: сколько флопсов GPU может выдать на типичных операциях внимания и матричных умножениях. Получается таблица MFU (Model FLOPs Utilization) для каждой комбинации «операция/размерность/GPU».
Фаза 2 (онлайн): сам симулятор на основе этих MFU и аналитических моделей вычисляет задержки. Больше никакого доступа к живому GPU не нужно — можно на лаптопе прикинуть, сколько H200 потянет пользователей.

Такая схема даёт гораздо более точные предсказания, чем чисто теоретические прикидки по пропускной способности памяти. Например, в фазе Decode модель часто упирается не в арифметику, а в загрузку KV-кеша, и InferSim это честно учитывает. Эвристики нарабатывались на основе большого количества реальных прогонов на H800, H20, GB200, так что им можно доверять.

Но есть нюанс: из коробки поддерживается только несколько «топовых» GPU и несколько моделей. Нам же нужны были Metax C500 64GB и Qwen3-32B с её хитрым GQA. Поэтому мы взяли напильник.

Первым делом нужно было объяснить симулятору, что такое Metax C500. В файле hardware/gpu.py все характеристики GPU хранятся в виде dataclass-экземпляров. Мы просто добавили новый:

c500 = GPU(    fp16_tflops=280,            # оценочно, по спецификациям    fp8_tflops=560,             # обычно в 2 раза выше FP16    mfu=0.35,                   # начальная гипотеза, позже уточним    mem=64,                     # объём HBM2e на одной карте    mem_bw=1800,                # пропускная способность HBM2e (ГБ/с)    nvlink_bw=450 / 2,          # односторонняя пропускная способность MetaXLink (оценка)    rdma_bw=40 * 0.8,           # RDMA (оптимистично))

После этого c500 попадает в словарь gpu_map, и можно запускать симуляцию с ключом --device-type C500 --world-size 2. Да, все параметры, кроме объёма памяти, пришлось оценивать — ребята из MetaX не публикуют точные значения FLOPS. Но для первого приближения хватило. Практика показала, что mfu=0.35 даёт разумные цифры, близкие к нашим реальным замерам.

Конфиг модели: Qwen3-32B без сюрпризов

Следующий шаг — конфигурационный файл модели. InferSim ожидает стандартный Hugging Face config.json. Мы приготовили qwen3_32b_config.json:

{  "model_type": "qwen3",  "hidden_size": 5120,  "num_hidden_layers": 64,  "num_attention_heads": 64,  "num_key_value_heads": 8,  "head_dim": 80,  "intermediate_size": 25600,  "vocab_size": 151936,  "max_position_embeddings": 40960}

Самое важное здесь — правильно указать head_dim: 80, а не 128, как иногда ошибочно пишут. Расчёт элементарный: head_dim = hidden_size / num_attention_heads = 5120 / 64 = 80. Ошибка на этом этапе приведёт к завышению расхода KV-кеша и совершенно неверным оценкам параллелизма.

Визуализация: восхитительный Streamlit

Симулятор работает быстро, но каждый раз парсить глазами текстовый вывод, особенно когда нужно перебрать десятки комбинаций длин промптов и ответов, — то ещё удовольствие. Мы подружили InferSim с Streamlit, и получился лёгкий веб-инструмент для интерактивного подбора параметров.

Идея простая:

Скрипт на Python вызывает main.py с переданными через subprocess аргументами.
Парсит stdout, вытаскивая из знакомых строк значения TTFT (ms), TPOT (ms), Throughput (TGS:tok/GPU/s).
Сохраняет результаты в Pandas DataFrame и рисует графики matplotlib прямо в браузере.

В Streamlit добавили выпадающие списки для выбора GPU, количества карт (world_size), модели, а также слайдеры для входных и выходных токенов. При изменении любого параметра автоматически запускается симуляция, и через пару секунд видим три графика: TTFT, TPOT и пропускную способность. Красота!

Теперь даже коллеги, далёкие от командной строки, могут прикинуть, сколько параллельных пользователей потянет связка из двух Metax на Qwen3-32B. Ответ часто удивляет: оказывается, памяти хватает на 42 одновременных запроса, а вот время ответа становится ~34 секунды, что для чат-бота уже «за гранью». Можно экспериментировать с квантизацией (--use-fp8-kv) и сразу видеть эффект.

Зачем это всё в суровой реальности

Российский рынок GPU сегодня напоминает квест: ускорители дороги, доступны не все, сроки поставок плавают. Покупать «на глаз» — почти гарантированно промахнуться. Либо возьмёте слишком слабое железо и пользователи разбегутся, либо переплатите за избыточную производительность, которую некуда применить.

Мы опробовали допиленный InferSim при планировании закупки под промышленный инференс. Он позволил:

Адекватно сравнить H200 (одна карта) и Metax C500 (две карты) для нашего сценария с длинными промптами. Оказалось, что по чистой скорости один H200 уделывает двух Metax, но если важна максимальная параллельность, связка из двух C500 выглядит интереснее за счёт 128 ГБ суммарной памяти.
Подобрать оптимальный decode batchsize, чтобы не уйти в OOM и не потерять в throughput.

Конечно, симулятор не даёт 100% точности — всё упирается в качество бенчмарков. Для Metax мы использовали приближённые оценки, поэтому реальность может немного отличаться. Но даже такая модель спасает от грубых ошибок.

Вместо заключения

InferSim — один из тех инструментов, которые сложно переоценить, когда готовишь закупку под инференс. Он, конечно, не заменяет полноценный бенчмарк на живом железе, но от грубых ошибок защищает отлично. А грубая ошибка в нашем деле — это, например, взять два ускорителя под модель, которая и на одном помещается, или, наоборот, купить карты, которые не вытянут нужное количество параллельных пользователей.

В условиях, когда железо дорогое, дефицитное и достаётся с трудом, такой инструмент становится настоящей палочкой-выручалочкой. Экспертизы по планированию GPU для LLM на рынке сегодня немного — слишком быстро всё меняется. InferSim позволяет «проиграть» десятки сценариев за вечер и принять взвешенное решение, а не тыкать пальцем в небо.

Если будете пробовать — делитесь впечатлениями, будем рады обсудить нюансы в комментариях.

Ссылки

Репозиторий живёт на GitHub, ссылка на оригинал: https://github.com/alibaba/InferSim.

Ссылка на наши доработки: https://github.com/DmitriyKhodykin/InferSim

Описание экономический стороны вопроса рассматривал тут: https://habr.com/ru/articles/1026438/

ссылка на оригинал статьи https://habr.com/ru/articles/1027358/