Допиливаем InferSim для собственных нужд моделирования загрузки промышленных GPU

от автора

Привет, Хабр! Меня зовут Дмитрий, я занимаюсь развитием продукта LLMaaS и сегодня хочу поделиться своим опытом моделирования загрузки оборудования для ML-инференса. Перед нами встала классическая задача: понять, сколько и какого железа закупать под большие языковые модели в условиях нашего сурового российского рынка. Ошибаться нельзя — цены на ускорители сегодня таковы, что одна незапланированная «стройка» может оставить команду без зарплаты. Решили не изобретать велосипед с нуля, а допилить открытый симулятор InferSim от Alibaba. О том, что у нас получилось, и пойдёт речь.

Что такое InferSim и почему он крут

InferSim — это Python-симулятор, который умеет вычислять ключевые метрики LLM-инференса: TTFT (время до первого токена), TPOT (время на каждый следующий токен) и пропускную способность в токенах в секунду. Авторы — ребята из Alibaba, они же разрабатывают vLLM, так что в LLM-инференсе разбираются очень хорошо.

Главная фишка симулятора — двухфазная архитектура:

  • Фаза 1 (офлайн): на целевом железе прогоняются микро-бенчмарки (через FlashInfer, sglang), которые снимают слепки реальной производительности: сколько флопсов GPU может выдать на типичных операциях внимания и матричных умножениях. Получается таблица MFU (Model FLOPs Utilization) для каждой комбинации «операция/размерность/GPU».

  • Фаза 2 (онлайн): сам симулятор на основе этих MFU и аналитических моделей вычисляет задержки. Больше никакого доступа к живому GPU не нужно — можно на лаптопе прикинуть, сколько H200 потянет пользователей.

Такая схема даёт гораздо более точные предсказания, чем чисто теоретические прикидки по пропускной способности памяти. Например, в фазе Decode модель часто упирается не в арифметику, а в загрузку KV-кеша, и InferSim это честно учитывает. Эвристики нарабатывались на основе большого количества реальных прогонов на H800, H20, GB200, так что им можно доверять.

Но есть нюанс: из коробки поддерживается только несколько «топовых» GPU и несколько моделей. Нам же нужны были Metax C500 64GB и Qwen3-32B с её хитрым GQA. Поэтому мы взяли напильник.

Первым делом нужно было объяснить симулятору, что такое Metax C500. В файле hardware/gpu.py все характеристики GPU хранятся в виде dataclass-экземпляров. Мы просто добавили новый:

c500 = GPU(    fp16_tflops=280,            # оценочно, по спецификациям    fp8_tflops=560,             # обычно в 2 раза выше FP16    mfu=0.35,                   # начальная гипотеза, позже уточним    mem=64,                     # объём HBM2e на одной карте    mem_bw=1800,                # пропускная способность HBM2e (ГБ/с)    nvlink_bw=450 / 2,          # односторонняя пропускная способность MetaXLink (оценка)    rdma_bw=40 * 0.8,           # RDMA (оптимистично))

После этого c500 попадает в словарь gpu_map, и можно запускать симуляцию с ключом --device-type C500 --world-size 2. Да, все параметры, кроме объёма памяти, пришлось оценивать — ребята из MetaX не публикуют точные значения FLOPS. Но для первого приближения хватило. Практика показала, что mfu=0.35 даёт разумные цифры, близкие к нашим реальным замерам.

Конфиг модели: Qwen3-32B без сюрпризов

Следующий шаг — конфигурационный файл модели. InferSim ожидает стандартный Hugging Face config.json. Мы приготовили qwen3_32b_config.json:

{  "model_type": "qwen3",  "hidden_size": 5120,  "num_hidden_layers": 64,  "num_attention_heads": 64,  "num_key_value_heads": 8,  "head_dim": 80,  "intermediate_size": 25600,  "vocab_size": 151936,  "max_position_embeddings": 40960}

Самое важное здесь — правильно указать head_dim: 80, а не 128, как иногда ошибочно пишут. Расчёт элементарный: head_dim = hidden_size / num_attention_heads = 5120 / 64 = 80. Ошибка на этом этапе приведёт к завышению расхода KV-кеша и совершенно неверным оценкам параллелизма.

Визуализация: восхитительный Streamlit

Симулятор работает быстро, но каждый раз парсить глазами текстовый вывод, особенно когда нужно перебрать десятки комбинаций длин промптов и ответов, — то ещё удовольствие. Мы подружили InferSim с Streamlit, и получился лёгкий веб-инструмент для интерактивного подбора параметров.

Идея простая:

  1. Скрипт на Python вызывает main.py с переданными через subprocess аргументами.

  2. Парсит stdout, вытаскивая из знакомых строк значения TTFT (ms)TPOT (ms)Throughput (TGS:tok/GPU/s).

  3. Сохраняет результаты в Pandas DataFrame и рисует графики matplotlib прямо в браузере.

В Streamlit добавили выпадающие списки для выбора GPU, количества карт (world_size), модели, а также слайдеры для входных и выходных токенов. При изменении любого параметра автоматически запускается симуляция, и через пару секунд видим три графика: TTFT, TPOT и пропускную способность. Красота!

Пользовательский интерфейс на Streamlit

Пользовательский интерфейс на Streamlit

Теперь даже коллеги, далёкие от командной строки, могут прикинуть, сколько параллельных пользователей потянет связка из двух Metax на Qwen3-32B. Ответ часто удивляет: оказывается, памяти хватает на 42 одновременных запроса, а вот время ответа становится ~34 секунды, что для чат-бота уже «за гранью». Можно экспериментировать с квантизацией (--use-fp8-kv) и сразу видеть эффект.

Зачем это всё в суровой реальности

Российский рынок GPU сегодня напоминает квест: ускорители дороги, доступны не все, сроки поставок плавают. Покупать «на глаз» — почти гарантированно промахнуться. Либо возьмёте слишком слабое железо и пользователи разбегутся, либо переплатите за избыточную производительность, которую некуда применить.

Мы опробовали допиленный InferSim при планировании закупки под промышленный инференс. Он позволил:

  • Адекватно сравнить H200 (одна карта) и Metax C500 (две карты) для нашего сценария с длинными промптами. Оказалось, что по чистой скорости один H200 уделывает двух Metax, но если важна максимальная параллельность, связка из двух C500 выглядит интереснее за счёт 128 ГБ суммарной памяти.

  • Подобрать оптимальный decode batchsize, чтобы не уйти в OOM и не потерять в throughput.

Конечно, симулятор не даёт 100% точности — всё упирается в качество бенчмарков. Для Metax мы использовали приближённые оценки, поэтому реальность может немного отличаться. Но даже такая модель спасает от грубых ошибок.

Вместо заключения

InferSim — один из тех инструментов, которые сложно переоценить, когда готовишь закупку под инференс. Он, конечно, не заменяет полноценный бенчмарк на живом железе, но от грубых ошибок защищает отлично. А грубая ошибка в нашем деле — это, например, взять два ускорителя под модель, которая и на одном помещается, или, наоборот, купить карты, которые не вытянут нужное количество параллельных пользователей.

В условиях, когда железо дорогое, дефицитное и достаётся с трудом, такой инструмент становится настоящей палочкой-выручалочкой. Экспертизы по планированию GPU для LLM на рынке сегодня немного — слишком быстро всё меняется. InferSim позволяет «проиграть» десятки сценариев за вечер и принять взвешенное решение, а не тыкать пальцем в небо.

Если будете пробовать — делитесь впечатлениями, будем рады обсудить нюансы в комментариях.

Ссылки

Репозиторий живёт на GitHub, ссылка на оригинал: https://github.com/alibaba/InferSim.

Ссылка на наши доработки: https://github.com/DmitriyKhodykin/InferSim

Описание экономический стороны вопроса рассматривал тут: https://habr.com/ru/articles/1026438/

ссылка на оригинал статьи https://habr.com/ru/articles/1027358/