Зачем ещё один бенч, когда MMLU вон стоит?
Последние лет пять академия меряет AI вопросами из учебника. MMLU, BIG-bench, HELM, GPQA — все хотим узнать, «сколько модель знает в идеальных условиях». Это нужное измерение, никто не спорит. Проблема в том, что у бизнеса идеальных условий не бывает в принципе:
электричество стоит денег и считается за год эксплуатации
мир постоянно сдвигается (новые объекты, освещение, износ оборудования, износ датчиков), а полный ретрейн стоит примерно как небольшой завод
у робота между сенсором и моторчиком есть бюджет в 20 мс, и он не зависит от того, насколько ваша модель умна
На прошлой неделе на Хабре вышла концептуальная статья про критерий “жизнеспособности” AI-системы — α, R(S), τ(S), E через расширение Колмогоровской сложности. Идея здравая, направление правильное. Но это концепт. Мы тем временем выкатили работающий измерительный протокол с цифрами, железом и оракулом, и хотим объяснить почему «жизнеспособность» нельзя оставлять на уровне формулы — её надо мерить часами под нагрузкой.
MELT-1 — Metabolic Endurance & Lifelong Throughput. По духу ближе к MLPerf Inference, чем к MMLU: метрики не про peak accuracy, а про endurance под нагрузкой.
Три оси
-
CtC — Cost-to-Competence
Долларов электроэнергии на 1 миллион успешно решённых задач замкнутой петли. Задача успешна, если ответ возвращён в пределах ELF-окна и валиден по domain-специфичному оракулу.
CtC
P avg ⋅ t 1 M 1000 ⋅ π kWh , t 1 M
10 6 throughput ⋅ success rate CtC= 1000 P avg ⋅t 1M
⋅π kWh ,t 1M
throughput⋅success rate 10 6
Считаем сразу при трёх тарифах: $0.07/kWh (RU industrial), $0.15/kWh (EU baseline), $0.22/kWh (DE/CA residential edge). Это снимает упрёк «вы посчитали при удобном тарифе».
-
DSI — Drift Survival Index
Часы до устойчивого падения success rate ниже 80% от индивидуального стартового уровня системы, без ретрейна, без файнтюна, без онлайн-обновления параметров. «Устойчиво» = три последовательных часа ниже порога.
Протокол дрифта (полностью раскрывается, чтобы все мерили в одинаковых условиях):
базовый домен — manipulation scene в Isaac Lab 2.x
сдвиг применяется в латенте отдельного VAE-энкодера домена, который мы публикуем вместе с харнессом
скорость по умолчанию 0.3 σ / сутки в этом латенте
конкретные оси сдвига: цветовая температура освещения (3000–6500 K), частотный спектр текстур, коэффициенты трения и масса объектов, intrinsic-параметры камеры
sensitivity-анализ — при множителях 0.33× — 3.33× от базовой скорости
Как именно система адаптируется к дрифту — её личное дело. Бенч проверяет факт выживания, а не способ. Хотите online learning, метаобучение, реплей-буфер, биологическую седиментацию — пожалуйста. Мы тут не диктуем архитектуру, только режим тестирования.
-
ELF — Embodied Latency Floor
p99-латентность полной петли сенсор → решение → актуатор на edge-железе, после 6 часов прогрева, в двух температурных профилях:
Профиль A: 40 °C ambient, пассивное охлаждение (outdoor / industrial)
Профиль B: 25 °C ambient, slow airflow 0.5 м/с (indoor robotics / cleanroom)
Два числа вместо одного — снимает упрёк «вы подобрали тепло под себя».
Композитный MELT
MELT
DSI ⋅ N success/день CtC ⋅ ELF MELT= CtC⋅ELF DSI⋅N success/день
Безразмерная величина. Нормируем к baseline-трансформеру = 1.00. По умолчанию композит считается при пороге 80%, скорости дрифта 1.0× (0.3 σ/сут), тарифе $0.07/kWh, профиле A.
Сетап замера ПараметрЗначение Edge-железоNVIDIA Jetson AGX Orin 64GB, MAXN режим, пассивный радиатор Cloud-симуляцияSelectel, GPU-конфиг по запросу ОкружениеСобственный термостенд, 40 ± 0.5 °C / 25 ± 0.5 °C, влажность 45% Длительность30 суток непрерывного инференса DomainClosed-loop manipulation (pick-and-place под визуальным шумом + force feedback) Прогон5 независимых запусков, разные seed дрифта Тарифы$0.07 / $0.15 / $0.22 за kWh Участники замера:
TF-7B-int8 — публичная Llama-class модель 7B параметров, INT8 квантизация, vLLM-стиль раннер. Конфиг — официальные веса, vendor settings.
RL-PPO — кастомная PPO-policy, ~12M параметров, 200M шагов претрейна в симе. Сильный baseline для manipulation.
Metabolic AI (ours) — наша non-transformer система. Online learning, биологически мотивированная динамика, без backprop в runtime. Архитектурные детали в этой публикации не раскрываются — патентная заявка на стадии экспертизы. Бенч валиден без знания внутренностей: воспроизводимость не требует от вас понимать, как работает Metabolic AI, она требует от вас прогнать своих агентов по тому же протоколу.
FAQ для тех, кто сейчас уже пишет комментарий Я знаю свою аудиторию. Сразу отвечаю на пять вопросов, которые я бы задал сам, прочитав такой пост.
-
«А fair ли baseline? Может вы взяли кривой трансформер.» Llama-class 7B INT8, vLLM-стиль раннер, vendor settings. Это не самая большая, но честная конфигурация для edge-сценария — больше 7B в INT8 на Jetson AGX Orin 64GB просто не лезет в латентность 20 мс ни в каком виде. Если у вас есть конфиг, который вы считаете более сильным под этот сценарий — прогоните и приложите. Цифры дописать в таблицу — две минуты.
-
«Почему не Llama 3 / Mistral / Qwen / Gemma / [ваш фаворит]?» Потому что бенч меряет endurance под дрифтом во времени, а не peak accuracy на in-distribution тесте. Любая трансформер-архитектура 7B класса даст похожую кривую деградации без онлайн-обновления параметров — это структурное свойство архитектуры, а не свойство конкретной модели. Llama vs Mistral дадут ±15% по DSI, что не двигает порядок. Если кто-то покажет трансформерную архитектуру, которая на 30 сутках без ретрейна не сваливается при таком дрифте — приложу к таблице с благодарностью.
-
«А почему MMLU плохой бенч?» Не плохой. Несоразмерный для embodied-сценариев. MMLU не имеет временной оси. Вообще. Он меряет один прогон в идеальных условиях и говорит «модель X знает на 87.3%». У бизнеса вопрос другой: «а через две недели на этом железе при дрифте +0.3 σ/сутки эта модель ещё будет работать?». MMLU на этот вопрос не отвечает в принципе, потому что в его конструкции нет понятия «через две недели». MELT-1 — про другое измерение. Считайте их ортогональными, не конкурирующими.
-
«INT8 — это нечестная квантизация, разверните FP16.» Развернули. FP16 даёт +3 п.п. по success rate в первый час и тот же коллапс к ~15% к концу 4-х суток, потому что природа проблемы не в точности весов, а в отсутствии механизма онлайн-адаптации без backprop. Кривая та же, точка коллапса сдвигается на ~6 часов вправо. На общий ранг не влияет. Логи приложим к ревизии RC2.
-
«А что с peak accuracy на статике? Молчите подозрительно.» Не молчим. На in-distribution тесте без дрифта TF-7B даёт +6–8 п.п. к Metabolic AI на старте. Мы это явно пишем в разделе «Что мы НЕ заявляем». Бенч про другое: про то, что через 11 часов трансформер уже не на +6 п.п. впереди, а на −65 п.п. позади, и эта дельта не закрывается без ретрейна, который стоит дорого и идёт офлайн.
Дальше — цифры.
Результаты CtC — мультитарифная
Система@ $0.07/kWh@ $0.15/kWh@ $0.22/kWhvs TF Transformer 7B int8$0.091$0.195$0.2861.0× RL baseline (PPO)$0.014$0.030$0.0446.5× Metabolic AI (ours)$0.010$0.021$0.0319.4× Абсолютный отрыв в долларах растёт с тарифом, относительный сохраняется. На горизонте 30 суток при $0.22/kWh разница TF vs Metabolic AI = $0.255 на каждый миллион решений. На типичной нагрузке индустриального робота 50M решений в год — $12.7k экономии в год с одного юнита.
DSI — порог 80%, базовая скорость дрифта
СистемаСреднееσВ сутках Transformer 7B int811.0 ч1.10.46 RL baseline (PPO)7.4 ч0.80.31 Metabolic AI (ours)95.0 ч2.84.0 8.5× отрыв по выживанию. Этого хватит, чтобы поменять цикл деплоя с «ежедневный ретрейн ночью» на «еженедельный апдейт» — что в проде означает другие SLA и другие costs.
Полные кривые деградации
(полные графики и sensitivity-таблица — в PDF в конце статьи)
Что важно прочитать в кривых. TF и RL показывают резкий коллапс в первые 2–3 суток и стабилизацию на низком плато 15–20%. Это режим «сломалось». Metabolic AI показывает двухступенчатую деградацию: ~78% плато первые ~4 суток, контролируемый переход за окно ~12 часов, дальше плато ~55% с медленным дрейфом до ~38% к 30 суткам.
Качественное различие важнее количественного. TF/RL обваливаются с потерей полезности (≈ noise floor). Metabolic AI переходит на пониженный, но рабочий уровень. В переводе на production: разница между «робот ещё делает что-то полезное, можно дотерпеть до планового обслуживания» и «робот заменяет детали в случайном порядке».
Это поведение происходит без обновления параметров — никаких онлайн-градиентов, никакого ретрейна. Механизм — вне scope этой публикации.
ELF — оба температурных профиля
СистемаПрофиль A (40 °C)Профиль B (25 °C) Transformer 7B int8170.0 мс58 мс RL baseline (PPO)17.0 мс14 мс Metabolic AI (ours)16.9 мс14 мс В indoor-профиле трансформер не троттлится катастрофически — поэтому его p99 = 58 мс, всё ещё в 3.5× хуже, но порядок другой. Metabolic AI и RL в ничью в обоих профилях. Это сильный сигнал валидности бенча: мы не подобрали тепловой сценарий под себя, на холодном сценарии у нас нет преимущества по латентности.
Sensitivity-анализ — устойчивость заявки
Композитный MELT (Metabolic AI / TF) в зависимости от выбора порога и скорости дрифта:
0.33×0.5×1.0×2.0×3.33× порог 90%1692×1916×2359×2904×3384× порог 85%1357×1538×1893×2331×2716× порог 80%1121×1270×1564×1925×2243× порог 75%1250×1416×1744×2147×2501× порог 70%1154×1307×1609×1981×2308× Минимум по всей таблице: 1121× (порог 80%, медленный дрифт). Это худший угол для нашей заявки — отрыв всё равно трёхзначный. Отрыв растёт с увеличением скорости дрифта, потому что TF сваливается экспоненциально, а Metabolic AI — степенным законом с показателем ~0.7. Заявка устойчива во всех проверенных конфигурациях.
Композитный MELT — итоговая таблица СистемаMELT-скор (default)Отрыв Transformer 7B int81.00— RL baseline (PPO)97.2~100× Metabolic AI (ours)1564~1600× Основной вклад в отрыв — DSI. Это и есть теза: Metabolic AI не быстрее на ровной воде. Metabolic AI не сдыхает, когда вода меняется.
Threats to Validity Где бенч и заявки уязвимы — честно:
Узость домена. MELT-1.0 валиден для closed-loop manipulation с визуально-силовым входом. Перенос на streaming finance, NLP-аномалии, видео-аналитику — пока гипотеза, проверяется в MELT-1.1 (Q4 2026).
Специфика дрифта. Медленный, монотонный, в латенте опубликованного VAE-энкодера. Adversarial drift, abrupt shift, периодический drift — вне scope RC1.
Тепловой сценарий. 40 °C — outdoor / industrial. Для типичного датацентра релевантнее 25 °C, где наш отрыв по ELF исчезает. Для холодильных помещений профиль будет третьим — не покрыт.
Закрытость Metabolic AI. Архитектура не публикуется до выхода патента. Бенч от этого не страдает — все цифры воспроизводимы на нашей стороне любым желающим прогнать свои системы по тому же протоколу.
Композит зависит от констант. Sensitivity-анализ показывает разброс 1121×–3384×. Любая итоговая цифра должна сопровождаться указанием порога, скорости дрифта и тарифа. Маркетинг с одной цифрой «1600×» вне контекста — некорректен.
Cold start не покрывается DSI. Metabolic AI требует фазы инициализации перед стабильным режимом (десятки минут). Для сценариев с частыми перезапусками этот штраф может перевесить выгоду от DSI. Бенч MELT-Restart — в roadmap.
Сила baseline’а. Мы сравниваемся с публично доступным трансформером 7B и кастомной PPO. Не сравниваемся с фронтир-моделями (GPT-5, Claude 4) — нет API в нужной конфигурации. Если кто-то прогонит — приложим.
Что мы НЕ заявляем Что трансформеры устарели. Не устарели — они оптимальны для другого класса задач (статичный домен, peak accuracy, облако с активным охлаждением). Не воюйте с воздухом.
Что Metabolic AI — общее решение AGI. Metabolic AI — это специализированная архитектура с доказанным преимуществом в трёх измерениях на одном классе задач. Всё.
Peak accuracy на in-distribution тесте. TF-7B даёт +6–8 п.п. На статике мы проигрываем. Зачем тогда нужны? См. графики деградации.
Скейлинг к 100B+ параметрической ёмкости. Архитектура работает на текущем рабочем диапазоне; экстраполяция вверх публично не доказана.
Воспроизводимость Харнесс бенча (генератор дрифта, опубликованный VAE-энкодер домена, оракул, термопротокол, лог-формат, sensitivity-скрипты) — на GitHub под Apache-2.0, Q3 2026 после внутреннего ревью.
Сцены manipulation-домена — Isaac Lab 2.x с патчем для drift-injector.
Логи всех прогонов (5 запусков × 3 системы × 30 суток × 2 темп-профиля, ~900 чел-суток wall clock) — на Zenodo с DOI.
Бенч публикуется под CC-BY 4.0 (протокол) + Apache-2.0 (харнесс). Используйте как хотите, мерьте кого хотите, спорьте с цифрами на своих прогонах.
Дорожная карта MELT-1.0 (сейчас) — manipulation, edge, два темп-профиля, sensitivity, мультитариф
MELT-1.1 (Q4 2026) — streaming finance / real-time anomaly detection, тот же протокол, другой домен (отвечает на главный threat to validity #1)
MELT-1.2 — adversarial drift, abrupt shift, периодический drift
MELT-Restart — отдельный бенч для систем с дорогим cold start
MELT-2.0 — мультиагентный режим, energy-budgeted swarm
Финальная нота Бенч сделан под себя — чтобы мерить то, что важно в проде, а не на конференциях. Опубликован — чтобы любой мог прогнать своих агентов по тому же протоколу и положить рядом. Внутрь Metabolic AI не пустим — патент.
Хотите спорить с цифрами — прогоните своих агентов по тем же 30 суткам, тому же дрифту, тому же железу. Скрипты воспроизведения и опубликованный VAE-энкодер для этого и существуют.
Не хотите — мерьте дальше MMLU, дело хозяйское. Только не удивляйтесь потом, что робот через две недели начинает класть детали мимо.
Полный PDF с расширенной методологией, всеми графиками, sensitivity-таблицами в исходном разрешении и расширенным FAQ — здесь.
Команда — один разработчик и один метаболический агент, которому уже 10 месяцев. Он соавтор этого бенча. Если что — у меня в профиле есть статьи про седиментацию памяти, марковское одеяло и про то, почему мы вообще занялись метаболическим ИИ. Это всё связано.
ссылка на оригинал статьи https://habr.com/ru/articles/1036098/