{"id":479153,"date":"2026-05-09T14:47:05","date_gmt":"2026-05-09T14:47:05","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=479153"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=479153","title":{"rendered":"DGX Spark \u043d\u0430 256K \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0435: \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u044e \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 vLLM, \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0437\u0430\u043c\u0435\u0440\u044b \u0438 \u043f\u043e\u0447\u0435\u043c\u0443 NVFP4\u00a0\u0432\u00a0mainline \u0441\u043b\u043e\u043c\u0430\u043d"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>NVIDIA \u043f\u0440\u043e\u0434\u0430\u0451\u0442 \u0441\u043f\u0430\u0440\u043a\u0443 \u0441\u00a0\u043b\u043e\u0437\u0443\u043d\u0433\u043e\u043c \u00ab\u043e\u0434\u0438\u043d \u043f\u0435\u0442\u0430\u0444\u043b\u043e\u043f \u043d\u0430\u00a0FP4\u00bb. \u042f \u043a\u0443\u043f\u0438\u043b \u043a\u043e\u0440\u043e\u0431\u043a\u0443, \u043f\u043e\u0441\u0442\u0430\u0432\u0438\u043b vLLM, \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u043b <strong>40\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443<\/strong> \u043d\u0430 35B MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0438. \u041f\u043e\u0441\u043b\u0435 \u043c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433\u043e\u0432\u044b\u0445 \u0441\u043b\u0430\u0439\u0434\u043e\u0432 \u0446\u0438\u0444\u0440\u0430 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0433\u0440\u0443\u0441\u0442\u043d\u043e.<\/p>\n<p>\u041e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435 \u043f\u0440\u043e\u0441\u0442\u043e\u0435. NVFP4\u00a0\u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435 vLLM \u0438 FlashInfer <strong>\u0444\u0438\u0437\u0438\u0447\u0435\u0441\u043a\u0438 \u0441\u043b\u043e\u043c\u0430\u043d<\/strong> \u043d\u0430\u00a0SM_121\u00a0\u2014 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u0435 Blackwell, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d \u0432\u00a0GB10. \u042f\u0434\u0440\u0430 \u0441\u043e\u0431\u0440\u0430\u043d\u044b \u043f\u043e\u0434 <code>compute_120f<\/code>, \u0430\u00a0\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0435 NVFP4-\u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u0438 \u0435\u0441\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0432 <code>compute_120a<\/code> \u0438 <code>compute_121a<\/code>. \u041d\u0430\u00a0SM_121\u00a0\u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u043a\u0432\u0430\u043d\u0442\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0432\u0435\u0441\u043e\u0432 \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u044b\u0435 \u0431\u0438\u0442\u043e\u0432\u044b\u0435 \u043c\u0430\u043d\u0438\u043f\u0443\u043b\u044f\u0446\u0438\u0438 \u0432\u00a0\u0448\u0435\u0439\u0434\u0435\u0440\u0435, \u0431\u0435\u0437\u00a0\u0443\u0447\u0430\u0441\u0442\u0438\u044f \u0442\u0435\u043d\u0437\u043e\u0440\u043d\u044b\u0445 \u044f\u0434\u0435\u0440.<\/p>\n<p>\u0421\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u0432\u044b\u0442\u0430\u0449\u0438\u043b\u043e \u0441\u0442\u0435\u043a \u0440\u0443\u043a\u0430\u043c\u0438: \u043d\u0430\u0448\u043b\u043e \u043e\u0431\u0445\u043e\u0434\u043d\u044b\u0435 \u043f\u0443\u0442\u0438, \u0441\u043e\u0431\u0440\u0430\u043b\u043e \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438. \u042f \u043f\u0440\u043e\u0433\u043d\u0430\u043b \u043d\u0430\u00a0\u0441\u0432\u043e\u0451\u043c Spark <strong>\u0448\u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0445 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439 vLLM<\/strong>\u00a0\u2014 \u043e\u0442\u00a0\u0441\u0442\u043e\u043a\u043e\u0432\u043e\u0433\u043e BF16\u00a0\u0434\u043e\u00a0\u0444\u043e\u0440\u043a\u0430 \u0441\u00a0DFlash speculative decoding\u00a0\u2014 \u0438 \u0437\u0430\u043c\u0435\u0440\u0438\u043b \u043a\u0430\u0436\u0434\u0443\u044e \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b\u043c \u0442\u0435\u0441\u0442\u043e\u043c. \u0412\u00a0\u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0437\u0431\u0438\u0440\u0430\u044e, \u0447\u0442\u043e\u00a0\u0432\u00a0\u0438\u0442\u043e\u0433\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438 \u0447\u0442\u043e\u00a0\u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c \u043f\u043e\u0434\u00a0\u0440\u0430\u0437\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438. <\/p>\n<h3>\u0415\u0441\u043b\u0438 \u043a\u043e\u0440\u043e\u0442\u043a\u043e<\/h3>\n<p>\u2014 <strong>GB10\u00a0\u2014 \u043d\u0435\u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u0430\u044f \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430.<\/strong> \u041d\u0430\u00a0\u043d\u0435\u0439 \u043a\u0440\u0443\u0442\u044f\u0442\u0441\u044f DGX Spark (NVIDIA reference), ASUS Ascent GX10, Lenovo ThinkStation PGX, HP ZGX Nano G1n, MSI EdgeXpert \u0438 \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043e\u0442\u00a0Dell, Acer \u0438 \u0434\u0440\u0443\u0433\u0438\u0445 OEM\u2011\u043f\u0430\u0440\u0442\u043d\u0451\u0440\u043e\u0432. \u041f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432\u0441\u0451 \u044d\u0442\u043e \u043a\u0430\u043a \u00abAI workstation \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432\u00bb. \u041d\u043e\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u044b NVIDIA\u00a0\u2014 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u044b, \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438, \u0440\u0430\u043d\u043d\u0438\u0435 \u0441\u0431\u043e\u0440\u043a\u0438\u00a0\u2014 \u0438\u0434\u0443\u0442 \u0432\u00a0\u0434\u0430\u0442\u0430\u0446\u0435\u043d\u0442\u0440\u043e\u0432\u044b\u0435 B100\/B200\/B300\u00a0\u0438 Hopper. SM_121\u00a0\u0432\u00a0\u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u0435 open\u2011source \u044f\u0434\u0435\u0440 (FlashInfer, CUTLASS, TensorRT\u2011LLM)\u00a0\u043b\u0438\u0431\u043e \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442\u0441\u044f,\u00a0\u043b\u0438\u0431\u043e \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043e\u0431\u0445\u043e\u0434\u043d\u044b\u0445 \u043f\u0443\u0442\u0435\u0439. \u041f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438 \u043e\u0442\u00a0NVIDIA \u043d\u0430\u00a0\u0444\u043e\u0440\u0443\u043c\u0430\u0445 \u043c\u0430\u043b\u043e, ETA \u0444\u0438\u043a\u0441\u043e\u0432 \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043d\u0435\u0442. <\/p>\n<p>\u2014 \u041d\u0430\u00a0\u043c\u043e\u0434\u0435\u043b\u044f\u0445 \u043a\u043b\u0430\u0441\u0441\u0430 35B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 DGX Spark \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0443\u044e \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c \u043f\u0430\u043c\u044f\u0442\u0438. \u0423\u00a0\u043d\u0435\u0433\u043e 273\u00a0GB\/s LPDDR5x \u043f\u0440\u043e\u0442\u0438\u0432 3.4\u00a0TB\/s HBM3\u00a0\u0443\u00a0H100. \u0412\u00a0\u0434\u0432\u0435\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u0440\u0430\u0437 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435, \u0438 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 LLM \u044d\u0442\u0443 \u0440\u0430\u0437\u043d\u0438\u0446\u0443 \u0447\u0435\u0441\u0442\u043d\u043e \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442.<\/p>\n<p>\u2014 NVFP4\u00a0\u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435 vLLM \u0438 FlashInfer \u043d\u0430\u00a0SM_121\u00a0\u043d\u0435\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u0430\u043a\u00a0\u0434\u043e\u043b\u0436\u0435\u043d. Issue <a href=\"https:\/\/github.com\/flashinfer-ai\/flashinfer\/issues\/3170\" rel=\"noopener noreferrer nofollow\">flashinfer #3170<\/a> \u043d\u0430\u00a0\u043c\u043e\u043c\u0435\u043d\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0441\u0442\u0430\u0442\u044c\u0438 \u043e\u0442\u043a\u0440\u044b\u0442, \u0432\u00a0\u043d\u0451\u043c 17\u00a0\u043f\u0443\u043d\u043a\u0442\u043e\u0432, \u043f\u0440\u043e\u0433\u0440\u0435\u0441\u0441 \u043f\u043e\u00a0\u0441\u0435\u043c\u0438 \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u044f \u043d\u0435\u00a0\u0441\u043c\u043e\u0433 \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0434\u0438\u0442\u044c \u043a\u0430\u043a\u00a0\u0437\u0430\u043a\u0440\u044b\u0442\u044b\u0439.<\/p>\n<p>\u2014 \u0421\u0442\u043e\u043a\u043e\u0432\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f \u0432\u044b\u0434\u0430\u0451\u0442 40\u201354\u00a0\u0442\u043e\u043a\u0435\u043d\u0430 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443 \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u043c \u043f\u043e\u0442\u043e\u043a\u0435. \u041c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433 \u00ab1\u00a0PFLOPS\u00bb \u043d\u0430\u00a0\u044d\u0442\u043e\u043c \u0444\u043e\u043d\u0435 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0435\u0445\u0438\u0434\u043d\u043e. \u041d\u0435\u00a0\u043f\u0435\u0440\u0432\u044b\u0439 \u0440\u0430\u0437 \u043b\u043e\u0432\u043b\u044e \u0441\u0435\u0431\u044f \u043d\u0430\u00a0\u0437\u043d\u0430\u043c\u0435\u043d\u0438\u0442\u043e\u0439 \u0440\u0435\u0430\u043a\u0446\u0438\u0438 \u0422\u043e\u0440\u0432\u0430\u043b\u044c\u0434\u0441\u0430 \u0432\u00a0\u0430\u0434\u0440\u0435\u0441 NVIDIA. <\/p>\n<p>\u2014 \u041a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f AEON-7\u00a0\u0441\u00a0DFlash \u043f\u0440\u043e\u0431\u0438\u0432\u0430\u0435\u0442 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u0434\u043e 70\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0440\u0435\u0434\u043d\u0435\u043c \u0438 107\u00a0\u043d\u0430\u00a0\u043f\u0438\u043a\u0435. \u042d\u0442\u043e \u0444\u043e\u0440\u043a vLLM \u0438\u0437\u00a0\u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432 \u0441\u00a0\u0441\u0435\u043c\u044c\u044e \u043f\u0430\u0442\u0447\u0430\u043c\u0438 \u0438 drafter \u0438\u0437\u00a0z\u2011lab. \u0412\u0430\u0436\u043d\u0430\u044f \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430: \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 <code>heretic<\/code>\u00a0\u2014 abliterated (\u0431\u0435\u0437 safety filtering), \u0438 \u043d\u0430\u00a0\u043d\u0451\u043c \u0441\u043b\u043e\u043c\u0430\u043d function calling. \u0414\u043b\u044f\u00a0\u043e\u0431\u044b\u0447\u043d\u043e\u0433\u043e \u0447\u0430\u0442\u0430 \u0438 RAG \u044d\u0442\u043e \u043d\u0435\u00a0\u043c\u0435\u0448\u0430\u0435\u0442, \u0434\u043b\u044f\u00a0Dify\u2011\u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0438 MCP\u00a0\u2014 \u0441\u0442\u043e\u043f\u2011\u0444\u0430\u043a\u0442\u043e\u0440, \u0442\u043e\u0433\u0434\u0430 \u043d\u0443\u0436\u0435\u043d \u0447\u0438\u0441\u0442\u044b\u0439 Qwen3.6-FP8.<\/p>\n<p>\u2014 \u041a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 260K \u043d\u0430\u00a0\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043d\u0435\u00a0\u0432\u043b\u0438\u044f\u0435\u0442. KV\u2011cache \u0438 \u0440\u0430\u0441\u043a\u043b\u0430\u0434\u043a\u0430 \u043f\u0430\u043c\u044f\u0442\u0438 \u043d\u0435\u00a0\u0443\u043f\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u0432\u00a0\u043f\u043e\u0442\u043e\u043b\u043e\u043a.<\/p>\n<p>\u2014 MoE \u043e\u0431\u044b\u0433\u0440\u044b\u0432\u0430\u0435\u0442 \u043f\u043b\u043e\u0442\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0430\u00a0\u0434\u0430\u043d\u043d\u043e\u043c\u00a0\u0436\u0435\u043b\u0435\u0437\u0435. \u041d\u0430\u00a0bandwidth\u2011bound GB10\u00a0\u0432\u0430\u0436\u043d\u044b \u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b, \u0430\u00a0\u043d\u0435\u00a0\u043e\u0431\u0449\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440.<\/p>\n<p>\u2014 \u0414\u0440\u0430\u0439\u0432\u0435\u0440 \u0437\u0430\u043b\u043e\u0447\u0435\u043d \u043d\u0430 580.x. \u041d\u0430 590+ \u0435\u0441\u0442\u044c \u0434\u0432\u0435 \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u0411\u0435\u0437\u00a0\u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0439 \u043c\u043e\u0436\u043d\u043e \u0436\u0438\u0442\u044c \u0434\u043e\u043b\u0433\u043e \u0438 \u0441\u0447\u0430\u0441\u0442\u043b\u0438\u0432\u043e.<\/p>\n<p>\u2014 vLLM 0.15+ \u043d\u0430\u00a0PyTorch 2.10\u00a0\u0438\u043c\u0435\u0435\u0442 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u0443\u044e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u0441\u00a0FULL CUDA graph capture mode\u00a0\u2014 \u043b\u0435\u0447\u0438\u0442\u0441\u044f <code>cudagraph_mode=piecewise<\/code> \u0438\u043b\u0438\u00a0\u0441\u0431\u043e\u0440\u043a\u043e\u0439 \u0438\u0437\u00a0\u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432. \u042d\u0442\u043e \u043d\u0435\u00a0\u043f\u0440\u043e\u00a0\u0434\u0440\u0430\u0439\u0432\u0435\u0440.<\/p>\n<p>\u2014 \u0415\u0441\u043b\u0438 \u0432\u044b \u043f\u043e\u043a\u0443\u043f\u0430\u043b\u0438 DGX Spark \u043f\u043e\u0434\u00a0\u043c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433\u043e\u0432\u044b\u0439 \u00ab\u043e\u0434\u0438\u043d \u043f\u0435\u0442\u0430\u0444\u043b\u043e\u043f \u043d\u0430\u00a0FP4\u00bb\u00a0\u2014 \u0437\u0430\u0431\u0443\u0434\u044c\u0442\u0435 \u0441\u043b\u0430\u0439\u0434\u044b. \u041d\u0430 35B\u2011\u043c\u043e\u0434\u0435\u043b\u044f\u0445 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0446\u0438\u0444\u0440\u044b \u0441\u043a\u0440\u043e\u043c\u043d\u0435\u0435. \u041f\u043e\u0434\u00a0\u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0435\u0440\u0432\u0438\u043d\u0433 \u0438 \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u043d \u0441\u00a0function calling\u00a0\u2014 Qwen3.6-FP8\u00a0\u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0439 vLLM. \u041f\u043e\u0434\u00a0\u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u0432\u00a0\u0447\u0430\u0442\u0435 \u0438 RAG (\u0431\u0435\u0437 tool calling)\u00a0\u2014 community\u2011\u0444\u043e\u0440\u043a AEON-7\u00a0\u0441\u00a0DFlash. \u041a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0438 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0443\u0442\u0438\u00a0\u2014 \u043d\u0438\u0436\u0435. <\/p>\n<h2>\u0417\u0430\u0447\u0435\u043c \u044d\u0442\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u043b\u043e\u0441\u044c  <\/h2>\n<p>\u0412 \u043c\u043e\u0451\u043c \u043f\u0440\u043e\u0435\u043a\u0442\u0435 \u0432\u0441\u0442\u0430\u043b \u0432\u043e\u043f\u0440\u043e\u0441: \u043a\u0430\u043a\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f vLLM \u0432\u044b\u0436\u0438\u043c\u0430\u0435\u0442 \u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u043d\u0430 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043d\u043e\u043c \u043e\u043a\u043d\u0435 256K. \u0414\u043b\u0438\u043d\u043d\u044b\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u043d\u0443\u0436\u0435\u043d \u0434\u043b\u044f \u0441\u0435\u0440\u044c\u0451\u0437\u043d\u044b\u0445 \u0432\u0435\u0449\u0435\u0439.<\/p>\n<p>\u042e\u0440\u0438\u0434\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0434\u043e\u0433\u043e\u0432\u043e\u0440\u044b \u0446\u0435\u043b\u0438\u043a\u043e\u043c \u0432 \u0432\u0432\u043e\u0434, \u0431\u0435\u0437 RAG. \u0414\u043e\u0433\u043e\u0432\u043e\u0440 \u043f\u043e\u0441\u0442\u0430\u0432\u043a\u0438 \u043d\u0430 \u0441\u043e\u0440\u043e\u043a \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0441 \u043c\u043d\u043e\u0433\u043e\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u043e\u0439 \u043d\u0443\u043c\u0435\u0440\u0430\u0446\u0438\u0435\u0439 \u2014 \u044d\u0442\u043e \u043e\u043a\u043e\u043b\u043e \u043f\u044f\u0442\u0438\u0434\u0435\u0441\u044f\u0442\u0438 \u0442\u044b\u0441\u044f\u0447 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c. \u0420\u0435\u0437\u0430\u0442\u044c \u0435\u0433\u043e \u043d\u0430 \u0447\u0430\u043d\u043a\u0438 \u0447\u0430\u0441\u0442\u043e \u0445\u0443\u0436\u0435, \u0447\u0435\u043c \u043e\u0442\u0434\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0446\u0435\u043b\u0438\u043a\u043e\u043c. \u0410\u043d\u0430\u043b\u0438\u0437 \u043a\u043e\u0434\u043e\u0432\u043e\u0439 \u0431\u0430\u0437\u044b \u0437\u0430 \u043e\u0434\u0438\u043d \u043f\u0440\u043e\u0445\u043e\u0434 \u2014 \u0441\u0440\u0435\u0434\u043d\u0438\u0439 \u043c\u0438\u043a\u0440\u043e\u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0430 \u043f\u044f\u0442\u044c\u0434\u0435\u0441\u044f\u0442-\u0441\u0442\u043e \u0444\u0430\u0439\u043b\u043e\u0432 \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0432 \u0434\u0432\u0435\u0441\u0442\u0438 \u0442\u044b\u0441\u044f\u0447 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0441 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u041c\u043d\u043e\u0433\u043e\u0448\u0430\u0433\u043e\u0432\u044b\u0435 \u0430\u0433\u0435\u043d\u0442\u0441\u043a\u0438\u0435 \u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0438: \u0438\u0441\u0442\u043e\u0440\u0438\u044f \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u0430 \u0440\u0430\u0441\u0442\u0451\u0442, \u0430\u0433\u0435\u043d\u0442 \u0434\u0435\u0440\u0436\u0438\u0442 \u0432 \u0433\u043e\u043b\u043e\u0432\u0435 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0435 \u0448\u0430\u0433\u0438, \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b, \u043f\u0440\u043e\u043c\u0435\u0436\u0443\u0442\u043e\u0447\u043d\u044b\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b. \u041d\u0430 \u0434\u0432\u0430\u0434\u0446\u0430\u0442\u0438-\u0442\u0440\u0438\u0434\u0446\u0430\u0442\u0438 \u0448\u0430\u0433\u0430\u0445 \u043b\u0435\u0433\u043a\u043e \u0443\u0445\u043e\u0434\u0438\u0442 \u0437\u0430 \u0441\u0442\u043e \u0442\u044b\u0441\u044f\u0447. \u0422\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044f \u0432 \u043e\u0434\u043d\u043e\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u2014 Confluence-\u0432\u044b\u0433\u0440\u0443\u0437\u043a\u0430 \u0441 \u043f\u0440\u0438\u043a\u0440\u0435\u043f\u043b\u0451\u043d\u043d\u044b\u043c\u0438 \u0444\u0430\u0439\u043b\u0430\u043c\u0438 \u0438\u043b\u0438 \u0440\u0435\u0433\u043b\u0430\u043c\u0435\u043d\u0442 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0438 \u0441\u043e \u0432\u0441\u0435\u043c\u0438 \u043f\u0440\u0438\u043b\u043e\u0436\u0435\u043d\u0438\u044f\u043c\u0438.<\/p>\n<p>\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0441\u0431\u043e\u0440\u043a\u0430 AGmind \u043a\u0440\u0443\u0442\u0438\u043b\u0430 Gemma 4 26B-A4B-it \u0432 BF16 \u043d\u0430 64K. \u041a\u043e\u0433\u0434\u0430 \u043a\u043b\u0438\u0435\u043d\u0442 \u0437\u0430\u0445\u043e\u0442\u0435\u043b 256K, \u044f \u043f\u043e\u0448\u0451\u043b \u0432 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b. NVFP4 \u2014 \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u044f, \u0432 \u0434\u0432\u0430 \u0440\u0430\u0437\u0430 \u043c\u0435\u043d\u044c\u0448\u0435 \u043f\u0430\u043c\u044f\u0442\u0438. MTP \u2014 speculative decoding. DFlash \u2014 block-diffusion drafter. \u0424\u043e\u0440\u043a\u0438 \u0441\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u0430. \u041f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c \u0448\u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0445 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439, \u043a\u0430\u0436\u0434\u0443\u044e \u043f\u0440\u043e\u0433\u043d\u0430\u043b \u043e\u0434\u043d\u0438\u043c \u0438 \u0442\u0435\u043c \u0436\u0435 \u0442\u0435\u0441\u0442\u043e\u043c.<\/p>\n<h3>\u0416\u0435\u043b\u0435\u0437\u043e<\/h3>\n<pre><code>NVIDIA DGX Spark\u251c\u2500\u2500 GPU:        GB10 (Blackwell SM_121)\u251c\u2500\u2500 \u041f\u0430\u043c\u044f\u0442\u044c:     128 GiB \u0435\u0434\u0438\u043d\u0430\u044f (LPDDR5x)\u251c\u2500\u2500 Bandwidth:  273 GB\/s\u251c\u2500\u2500 \u0414\u0440\u0430\u0439\u0432\u0435\u0440:    580.142 (NVIDIA \u043d\u0435 \u0441\u0435\u0440\u0442\u0438\u0444\u0438\u0446\u0438\u0440\u0443\u0435\u0442 \u0431\u043e\u043b\u0435\u0435 \u043d\u043e\u0432\u044b\u0435 \u043d\u0430 Spark)\u251c\u2500\u2500 CUDA:       13.0\u251c\u2500\u2500 \u041e\u0421:         DGX OS 7.5.0 (aarch64, Ubuntu 24.04)\u2514\u2500\u2500 \u041a\u043b\u0430\u0441\u0442\u0435\u0440:    2 \u043d\u043e\u0434\u044b \u0447\u0435\u0440\u0435\u0437 QSFP 200G<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:87px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>Spark \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043a\u0430\u043a\u00a0\u0440\u0430\u0431\u043e\u0447\u0430\u044f \u0441\u0442\u0430\u043d\u0446\u0438\u044f \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 AI. \u0413\u043b\u0430\u0432\u043d\u043e\u0435\u00a0\u2014 \u0435\u0434\u0438\u043d\u0430\u044f \u043f\u0430\u043c\u044f\u0442\u044c. \u041c\u043e\u0434\u0435\u043b\u044c \u0432\u0438\u0434\u0438\u0442 CPU \u0438 GPU \u043a\u0430\u043a\u00a0\u043e\u0434\u0438\u043d \u043f\u0443\u043b \u043d\u0430 128\u00a0GiB, \u0445\u043e\u0434\u0438\u0442\u044c \u0447\u0435\u0440\u0435\u0437 PCIe \u043d\u0435\u00a0\u043d\u0430\u0434\u043e.<\/p>\n<p>\u041c\u0438\u043d\u0443\u0441\u043e\u0432 \u0443\u00a0\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u044b \u0442\u0440\u0438. \u0413\u043b\u0430\u0432\u043d\u044b\u0439\u00a0\u2014 bandwidth: 273\u00a0GB\/s \u043f\u0440\u043e\u0442\u0438\u0432 3.4\u00a0TB\/s \u0443\u00a0H100\u00a0HBM3, \u0432\u00a0\u0434\u0432\u0435\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u0440\u0430\u0437 \u043c\u0435\u043d\u044c\u0448\u0435. \u0414\u0435\u043a\u043e\u0434 LLM \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0438\u043c\u0435\u043d\u043d\u043e \u0432\u00a0\u044d\u0442\u043e. \u041d\u0430\u00a0MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u00a0\u0442\u0440\u0435\u043c\u044f \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430\u043c\u0438 \u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0442\u0435\u043e\u0440\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u043f\u0440\u0438\u00a0NVFP4\u00a0\u2014 \u043e\u043a\u043e\u043b\u043e 180\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443. \u041d\u0430\u00a0H100\u00a0\u0432\u00a0FP8\u00a0\u043d\u0430\u00a0\u0442\u043e\u0439\u00a0\u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u0431\u043e\u043b\u0435\u0435 \u0442\u044b\u0441\u044f\u0447\u0438; \u043d\u0430\u00a0\u0434\u0430\u0442\u0430\u0446\u0435\u043d\u0442\u0440\u043e\u0432\u044b\u0445 Blackwell B200\u00a0\u0432\u00a0NVFP4\u00a0\u2014 \u0437\u0430\u00a0\u043f\u044f\u0442\u044c \u0442\u044b\u0441\u044f\u0447.<\/p>\n<p>\u0414\u0430\u043b\u044c\u0448\u0435\u00a0\u2014 \u0434\u0440\u0430\u0439\u0432\u0435\u0440 \u0437\u0430\u043b\u043e\u0447\u0435\u043d \u043d\u0430 580.x. \u041d\u0430 590\u00a0\u0438 \u0432\u044b\u0448\u0435 \u0435\u0441\u0442\u044c \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u041f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u0441\u0442\u0438\u00a0\u0431\u044b\u043b\u0438 \u0432\u043e\u00a0\u0432\u0442\u043e\u0440\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0441\u0435\u0440\u0438\u0438.<\/p>\n<p>\u0418 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u00a0\u2014 SM_121\u00a0\u044d\u0442\u043e \u0443\u0437\u043a\u0430\u044f \u0440\u0430\u0437\u043d\u043e\u0432\u0438\u0434\u043d\u043e\u0441\u0442\u044c Blackwell, \u043d\u0430\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e GB10. \u041f\u043e\u0434\u00a0\u043c\u0430\u0441\u0441\u043e\u0432\u044b\u0439 SM_120 \u044d\u043a\u043e\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0438 \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e. \u041f\u043e\u0434\u00a0SM_121\u00a0\u044f\u0434\u0440\u0430\u00a0\u043b\u0438\u0431\u043e \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u044e\u0442,\u00a0\u043b\u0438\u0431\u043e \u0441\u043e\u0431\u0440\u0430\u043d\u044b \u0432\u0442\u043e\u0440\u044b\u043c \u043f\u0440\u0438\u043e\u0440\u0438\u0442\u0435\u0442\u043e\u043c. <\/p>\n<h2>\u0417\u043e\u043e\u043f\u0430\u0440\u043a attention-\u0434\u0432\u0438\u0436\u043a\u043e\u0432  <\/h2>\n<p>\u0412\u00a0vLLM \u0442\u0440\u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u0434\u0432\u0438\u0436\u043a\u0430 \u0434\u043b\u044f\u00a0\u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, \u0438 \u043a\u0430\u0436\u0434\u044b\u0439 \u0432\u0435\u0434\u0451\u0442 \u0441\u0435\u0431\u044f \u043f\u043e\u2011\u0441\u0432\u043e\u0435\u043c\u0443.<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0414\u0432\u0438\u0436\u043e\u043a<\/p>\n<\/th>\n<th data-colwidth=\"208\" width=\"208\">\n<p align=\"left\">\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0427\u0442\u043e\u00a0\u043d\u0430 GB10<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">FlashInfer<\/p>\n<\/td>\n<td data-colwidth=\"208\" width=\"208\">\n<p align=\"left\">NVIDIA\u2011\u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u043d\u044b\u0439 CUDA, \u0441\u0430\u043c\u044b\u0439\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043d\u0430\u00a0\u043c\u0430\u0441\u0441\u043e\u0432\u043e\u043c Blackwell<\/p>\n<\/td>\n<td>\n<p align=\"left\">FP8-attention \u0441\u043b\u043e\u043c\u0430\u043d: <code>kernel only supports sm120 + illegal synchronization operations<\/code><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">CUTLASS \/ FA3<\/p>\n<\/td>\n<td data-colwidth=\"208\" width=\"208\">\n<p align=\"left\">\u0410\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0439\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043f\u0443\u0442\u044c, \u0435\u0441\u0442\u044c \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0430 NVFP4<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0427\u0430\u0441\u0442\u0438\u0447\u043d\u043e. <code><em>heuristic<\/em>_func_mm_fp4<\/code> \u0442\u0440\u0435\u0431\u0443\u0435\u0442 <code>minor == 0<\/code>, \u0447\u0442\u043e\u00a0\u043e\u0442\u0440\u0435\u0437\u0430\u0435\u0442 GB10. NVFP4\u00a0KV\u2011decode \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043d\u0435\u00a0\u0441\u043e\u0431\u0440\u0430\u043d, \u0432\u00a0JIT \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u043f\u0440\u0438\u00a0\u043f\u0435\u0440\u0432\u043e\u043c \u0437\u0430\u043f\u0443\u0441\u043a\u0435<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">TRITON_ATTN<\/p>\n<\/td>\n<td data-colwidth=\"208\" width=\"208\">\n<p align=\"left\">OpenAI Triton, \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f JIT \u043f\u043e\u0434\u00a0GPU<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0420\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432\u0435\u0437\u0434\u0435, \u043d\u0430 10\u201330% \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435 FlashInfer, \u043d\u043e\u00a0\u043d\u0435\u00a0\u043f\u0430\u0434\u0430\u0435\u0442<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>TRITON_ATTN\u00a0\u2014 \u0434\u0435\u2011\u0444\u0430\u043a\u0442\u043e \u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442. \u0423\u00a0\u043c\u0435\u043d\u044f \u0432\u00a0\u043f\u0440\u043e\u0435\u043a\u0442\u0435 \u0437\u0430\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u043e: \u0432\u0441\u0435 FP8-\u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0438\u0434\u0443\u0442 \u0447\u0435\u0440\u0435\u0437 <code>VLLM_ATTENTION_BACKEND=TRITON_ATTN<\/code>, \u0435\u0441\u043b\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f FlashInfer FP8.<\/p>\n<p>\u0422\u0440\u0438\u0433\u0433\u0435\u0440\u044b \u0434\u043b\u044f\u00a0\u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0430: \u043e\u0448\u0438\u0431\u043a\u0430 <code>kernel only supports sm120<\/code> \u0432\u00a0\u043b\u043e\u0433\u0430\u0445, \u043a\u0440\u0430\u0448\u0438 <code>illegal synchronization operations<\/code>, \u0430\u043f\u0433\u0440\u0435\u0439\u0434 vLLM \u0441\u00a0\u043f\u0435\u0440\u0435\u0441\u0431\u043e\u0440\u043a\u043e\u0439 FlashInfer (\u0441\u0442\u0430\u0440\u0430\u044f \u0432\u0435\u0440\u0441\u0438\u044f \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430, \u043d\u043e\u0432\u0430\u044f \u043d\u0435\u0442).<\/p>\n<p>\u0412\u00a0\u043c\u043e\u0451\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0435 AEON-7\u00a0\u0443\u0436\u0435 \u0441\u043e\u0431\u0440\u0430\u043d \u0441\u00a0flash_attn (\u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 FlashAttention \u043e\u0442\u00a0Tri Dao, \u043d\u0435\u00a0Triton). \u041d\u0430\u00a0GB10\u00a0\u043e\u043d\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 AEON-7\u00a0\u043d\u0435\u00a0\u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b FlashInfer.<\/p>\n<h2>\u0411\u044d\u043a\u0435\u043d\u0434 \u0434\u043b\u044f MoE  <\/h2>\n<p>\u0414\u043b\u044f\u00a0MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0435\u0439 (Qwen3.6, Mixtral, GLM) \u0435\u0441\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0432\u044b\u0431\u043e\u0440:<\/p>\n<p>bash<\/p>\n<pre><code>VLLM_USE_FLASHINFER_MOE_FP8=1   # FP8 MoE \u2014 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 SM_121 \u0441 flashinfer 0.6.xVLLM_USE_FLASHINFER_MOE_FP4=0   # NVFP4 MoE \u2014 \u0434\u0435\u0441\u044f\u0442\u044c \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0439 \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044fVLLM_NVFP4_GEMM_BACKEND=marlin  # \u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043d\u0430 \u044f\u0434\u0440\u0435 Marlin INT4<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>Marlin\u00a0\u2014 \u044d\u0442\u043e GEMM\u2011\u044f\u0434\u0440\u043e \u0434\u043b\u044f\u00a0INT4-\u0432\u0435\u0441\u043e\u0432 \u0441\u00a0FP16\/BF16-\u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u044f\u043c\u0438. \u041d\u0430\u00a0SM_121\u00a0\u043e\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e, \u043d\u043e\u00a0\u0432\u0435\u0441\u0430 \u0434\u043e\u043b\u0436\u043d\u044b\u00a0\u0431\u044b\u0442\u044c <strong>\u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u0440\u043e\u043a\u0432\u0430\u043d\u0442\u0438\u0437\u043e\u0432\u0430\u043d\u044b<\/strong> \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 Marlin \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442. \u0418\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0435\u0433\u043e \u043a\u0430\u043a\u00a0\u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0438\u043c\u0435\u0435\u0442 \u0441\u043c\u044b\u0441\u043b, \u0435\u0441\u043b\u0438 NVFP4-\u043f\u0443\u0442\u044c \u043d\u0435\u00a0\u0438\u0434\u0451\u0442.<\/p>\n<h4>\u041f\u043e\u0447\u0435\u043c\u0443 \u0432\u0430\u0436\u043d\u043e \u041d\u0415\u00a0\u043e\u0431\u043d\u043e\u0432\u043b\u044f\u0442\u044c \u0434\u0440\u0430\u0439\u0432\u0435\u0440<\/h4>\n<p>DGX OS 7.5.0\u00a0\u043f\u0438\u043d\u0430\u0435\u0442 580.142\u00a0\u043a\u0430\u043a\u00a0\u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u0435\u0440\u0442\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439 \u0434\u0440\u0430\u0439\u0432\u0435\u0440. \u041d\u0430\u00a0GB10\u00a0\u043d\u0430\u00a0\u0435\u0434\u0438\u043d\u043e\u0439 \u043f\u0430\u043c\u044f\u0442\u0438 \u0435\u0441\u0442\u044c \u0434\u0432\u0435 \u043d\u0435\u0437\u0430\u0432\u0438\u0441\u0438\u043c\u044b\u0435 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438 \u0432 590+, \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0435\u0442 \u043d\u0430\u00a0\u0434\u0438\u0441\u043a\u0440\u0435\u0442\u043d\u043e\u0439 \u0432\u0438\u0434\u0435\u043e\u043f\u0430\u043c\u044f\u0442\u0438.<\/p>\n<p>\u041f\u0435\u0440\u0432\u0430\u044f\u00a0\u2014 <strong>\u0443\u0442\u0435\u0447\u043a\u0430 UMA \u0432 590.48.01<\/strong>. \u041f\u043e\u0441\u043b\u0435 \u0447\u0438\u0441\u0442\u043e\u0433\u043e \u0432\u044b\u0445\u043e\u0434\u0430 CUDA\u2011\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430 \u043e\u043a\u043e\u043b\u043e 80  \u0438\u0437\u00a0128 GB \u00ab\u0441\u044a\u0435\u0434\u0435\u043d\u044b\u00bb, \u0438\u0445 \u043d\u0435\u00a0\u0432\u0438\u0434\u043d\u043e \u0432\u00a0AnonPages, Slab, PageTables. <code>MemAvailable<\/code> \u043f\u0430\u0434\u0430\u0435\u0442. \u041b\u0435\u0447\u0438\u0442\u0441\u044f <code>echo 3 &gt; \/proc\/sys\/vm\/drop_caches<\/code> \u0438\u043b\u0438\u00a0\u0432\u044b\u0433\u0440\u0443\u0437\u043a\u043e\u0439 \u043c\u043e\u0434\u0443\u043b\u044f nvidia. \u0422\u0440\u0435\u0434 \u0444\u043e\u0440\u0443\u043c\u0430 <a href=\"https:\/\/forums.developer.nvidia.com\/t\/driver-590-48-01-regression-uma-memory-not-released-after-cuda-process-exit-works-on-580-126-09\/359969\" rel=\"noopener noreferrer nofollow\">#359969<\/a>\u00a0\u2014 NVIDIA \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0434\u0438\u043b\u0430 \u0431\u0430\u0433 \u0438 \u044f\u0432\u043d\u043e \u0441\u043a\u0430\u0437\u0430\u043b\u0430, \u0447\u0442\u043e\u00a0\u043d\u043e\u0432\u044b\u0435 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u044b \u043f\u043e\u0441\u043b\u0435 580.126.09\u00a0\u043d\u0430\u00a0Spark \u043f\u043e\u043a\u0430 \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044f.<\/p>\n<p>\u0412\u0442\u043e\u0440\u0430\u044f\u00a0\u2014 \u0431\u0430\u0433 TMA \u0432 595.58.03. <code>cuTensorMapEncodeTiled<\/code> \u043b\u043e\u0432\u0438\u0442 illegal memory access. \u0412\u0430\u043b\u0438\u0442 NVFP4\u00a0\u043d\u0430\u00a0Spark (vLLM #35519).<\/p>\n<p>\u041d\u0443\u0436\u043d\u043e \u0437\u0430\u0445\u043e\u043b\u0434\u0438\u0442\u044c \u0434\u0440\u0430\u0439\u0432\u0435\u0440:<\/p>\n<p>bash<\/p>\n<pre><code>sudo apt-mark hold nvidia-driver-580-open<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0418\u043d\u0430\u0447\u0435 unattended\u2011upgrades \u043f\u043e\u0434\u0442\u044f\u043d\u0435\u0442 590+ \u0438 \u0441\u0442\u0435\u043a \u043f\u043e\u0441\u044b\u043f\u0435\u0442\u0441\u044f.<\/p>\n<h4>\u0427\u0442\u043e\u00a0\u0432 \u0438\u0442\u043e\u0433\u0435 \u0441\u043b\u043e\u043c\u0430\u043d\u043e \u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435<\/h4>\n<p>NVFP4\u00a0\u043e\u0442\u043a\u0430\u0442\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043d\u0430\u00a0\u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u0443\u044e \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0443, \u0432\u00a0\u0442\u0440\u0438 \u0440\u0430\u0437\u0430 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435 \u043d\u0430\u0442\u0438\u0432\u043d\u043e\u0433\u043e. TensorRT\u2011LLM \u043d\u0430\u00a0Spark \u0442\u0440\u0435\u0431\u0443\u0435\u0442 workaround \u0434\u043b\u044f\u00a0PTXAS (<code>sm_121a is not defined for option gpu-name<\/code>, <a href=\"https:\/\/github.com\/triton-lang\/triton\/issues\/8539\" rel=\"noopener noreferrer nofollow\">Triton issue #8539<\/a>)\u00a0\u2014 \u043b\u0435\u0447\u0438\u0442\u0441\u044f \u043f\u0435\u0440\u0435\u0434\u0430\u0447\u0435\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0433\u043e <code>TRITON_PTXAS_PATH<\/code> \u0447\u0435\u0440\u0435\u0437 mpirun. FP8-attention \u0432\u00a0FlashInfer \u043b\u043e\u043c\u0430\u0435\u0442\u0441\u044f \u043d\u0430\u00a0illegal sync, \u043d\u0430\u0434\u043e TRITON_ATTN. NVFP4\u00a0\u0432\u00a0MoE\u00a0\u2014 \u0434\u0435\u0441\u044f\u0442\u044c \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0439 \u0438\u0437\u00a0\u0441\u0435\u043c\u043d\u0430\u0434\u0446\u0430\u0442\u0438 \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044f. \u0421\u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043a\u0443\u0431\u0438\u043d\u043e\u0432 TRTLLM\u2011gen FMHA \u0434\u043b\u044f\u00a0SM_121\u00a0\u043d\u0435\u00a0\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442. Marlin INT4\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<h2>\u0421\u043a\u043e\u043b\u044c\u043a\u043e \u0444\u0438\u0437\u0438\u0447\u0435\u0441\u043a\u0438 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e: roofline  <\/h2>\n<p>\u041f\u0440\u043e\u0441\u0442\u0430\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430 \u0434\u043b\u044f \u0430\u0432\u0442\u043e\u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0432\u043d\u043e\u0433\u043e \u0434\u0435\u043a\u043e\u0434\u0430 \u043d\u0430 MoE 35B \/ 3B-active:<\/p>\n<pre><code>peak_tok_s = bandwidth \/ (bytes_per_param \u00d7 active_params_per_token)<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u041a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u044f<\/p>\n<\/th>\n<th>\n<p align=\"left\">Bytes\/token (active)<\/p>\n<\/th>\n<th>\n<p align=\"left\">Roofline tok\/s<\/p>\n<\/th>\n<th>\n<p align=\"left\">\u0420\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u043c\u0435\u0440\u0435\u043d\u043e<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">BF16<\/p>\n<\/td>\n<td>\n<p align=\"left\">6 GB<\/p>\n<\/td>\n<td>\n<p align=\"left\">45<\/p>\n<\/td>\n<td>\n<p align=\"left\">23 (Gemma 4 252K)<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">FP8<\/p>\n<\/td>\n<td>\n<p align=\"left\">3 GB<\/p>\n<\/td>\n<td>\n<p align=\"left\">91<\/p>\n<\/td>\n<td>\n<p align=\"left\">52 (FP8 65K)<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">NVFP4<\/p>\n<\/td>\n<td>\n<p align=\"left\">1.5 GB<\/p>\n<\/td>\n<td>\n<p align=\"left\">182<\/p>\n<\/td>\n<td>\n<p align=\"left\">40 (\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0441\u0431\u043e\u0440\u043a\u0430)<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">NVFP4 + speculative<\/p>\n<\/td>\n<td>\n<p align=\"left\">~0.85 GB \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e<\/p>\n<\/td>\n<td>\n<p align=\"left\">~320<\/p>\n<\/td>\n<td>\n<p align=\"left\">70 (AEON-7)<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>Roofline \u0434\u0430\u0451\u0442 \u0432\u0435\u0440\u0445\u043d\u044e\u044e \u0433\u0440\u0430\u043d\u0438\u0446\u0443. \u0420\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0432\u0441\u0435\u0433\u0434\u0430 \u043d\u0438\u0436\u0435. \u041f\u0440\u0438\u0447\u0438\u043d\u044b: \u0442\u0440\u0430\u0444\u0438\u043a KV-cache (\u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0447\u0438\u0442\u0430\u0442\u044c \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043f\u0440\u043e\u0448\u043b\u044b\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432), \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043b\u043e\u0451\u0432, softmax, \u0441\u044d\u043c\u043f\u043b\u0438\u043d\u0433, \u043d\u0430\u043a\u043b\u0430\u0434\u043d\u044b\u0435 \u0440\u0430\u0441\u0445\u043e\u0434\u044b \u043d\u0430 \u0437\u0430\u043f\u0443\u0441\u043a \u044f\u0434\u0440\u0430 \u043f\u0440\u0438 \u043a\u0430\u0436\u0434\u043e\u043c \u0448\u0430\u0433\u0435 \u0434\u0435\u043a\u043e\u0434\u0430. \u0414\u043b\u044f NVFP4 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0435\u0449\u0451 \u0438 \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u0431\u043b\u043e\u043a\u043e\u0432\u044b\u0445 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043e\u0432.<\/p>\n<h2>\u042d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442: \u0448\u0435\u0441\u0442\u044c \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439 <\/h2>\n<p>\u0412\u0441\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u0438\u0441\u044c \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u0439 \u043c\u0430\u0448\u0438\u043d\u0435, \u043e\u0434\u043d\u0438\u043c \u0438 \u0442\u0435\u043c\u00a0\u0436\u0435 \u0431\u0435\u043d\u0447\u2011\u0441\u043a\u0440\u0438\u043f\u0442\u043e\u043c. \u041f\u044f\u0442\u044c \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0445 \u0437\u0430\u043f\u0443\u0441\u043a\u043e\u0432 \u0441\u00a0\u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043f\u0440\u043e\u043c\u043f\u0442\u0430\u043c\u0438 (T=0.7, \u0434\u043e 300\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430\u00a0\u043e\u0442\u0432\u0435\u0442), TTFT \u0447\u0435\u0440\u0435\u0437 \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433, \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 4, 8, 16\u00a0\u0438 32\u00a0\u0437\u0430\u043f\u0440\u043e\u0441\u0430, \u0442\u044f\u0436\u0451\u043b\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 \u043d\u0430 2K \u0432\u0432\u043e\u0434\u0430 \u0438 400\u00a0\u043e\u0442\u0432\u0435\u0442\u0430. \u041c\u0435\u0436\u0434\u0443 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f\u043c\u0438 \u044f \u043e\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u043b \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u043a\u043e\u043d\u0442\u0435\u0439\u043d\u0435\u0440 vLLM \u0438 \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u043b \u043d\u043e\u0432\u044b\u0439. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e \u0434\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435\u00a0\u043a\u0440\u0443\u0442\u0438\u043b\u00a0\u2014 \u0432\u0442\u043e\u0440\u0430\u044f \u043d\u043e\u0434\u0430 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0430 \u0432\u00a0\u044d\u0442\u043e \u0432\u0440\u0435\u043c\u044f \u0434\u0435\u0440\u0436\u0430\u043b\u0430 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 production\u2011\u0438\u043d\u0441\u0442\u0430\u043d\u0441, \u043f\u0435\u0440\u0435\u043d\u0430\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u0442\u044c \u0435\u0451 \u0440\u0430\u0434\u0438 \u0431\u0435\u043d\u0447\u0435\u0439 \u043d\u0435\u00a0\u0438\u043c\u0435\u043b\u043e \u0441\u043c\u044b\u0441\u043b\u0430.  <\/p>\n<h4>Gemma 4 26B-A4B-it BF16 \u043d\u0430 252K<\/h4>\n<p>\u042d\u0442\u043e \u0431\u0430\u0437\u043e\u0432\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f AGmind \u0434\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432. BF16-\u0432\u0435\u0441\u0430, FP8 KV-cache (\u0431\u0435\u0437 \u043d\u0435\u0433\u043e 252K \u043d\u0435 \u0432\u043b\u0435\u0437\u0430\u0435\u0442: 252K \u00d7 580 KB = 146 GB).<\/p>\n<p>bash<\/p>\n<pre><code>docker run vllm\/vllm-openai:gemma4-cu130 \\  google\/gemma-4-26B-A4B-it \\  --max-model-len 252000 \\  --gpu-memory-utilization 0.85 \\  --kv-cache-dtype fp8<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u0432 \u0441\u0440\u0435\u0434\u043d\u0435\u043c \u2014 23.3 tok\/s, \u0440\u0430\u0437\u0431\u0440\u043e\u0441 \u043c\u0435\u043d\u044c\u0448\u0435 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u0430. TTFT \u043d\u0430 \u0442\u0451\u043f\u043b\u043e\u043c \u2014 94-106 \u043c\u0441. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32 \u0437\u0430\u043f\u0440\u043e\u0441\u0430 \u2014 297.8 tok\/s \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e. \u0422\u044f\u0436\u0451\u043b\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 2K \u2014 22.5 tok\/s.<\/p>\n<p>Speculative decoding \u043d\u0435\u0442, \u043a\u0430\u0436\u0434\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u0446\u0435\u043b\u0435\u0432\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c. \u041a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u043d\u0435\u0442, BF16 \u043d\u0430 49 GiB \u0442\u044f\u0436\u0435\u043b\u043e \u0442\u0430\u0449\u0438\u0442\u044c \u0447\u0435\u0440\u0435\u0437 273 GB\/s. \u0421\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u043f\u044f\u0442\u044c \u0438\u0437 \u043f\u044f\u0442\u0438, \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u0443\u0434\u0440\u0443\u0447\u0430\u0435\u0442.<\/p>\n<h4>Qwen3.6-35B-A3B-FP8 \u043d\u0430 65K<\/h4>\n<p>\u0421\u0432\u0435\u0436\u0430\u044f Qwen3.6 (\u0440\u0435\u043b\u0438\u0437 \u0430\u043f\u0440\u0435\u043b\u044c 2026) \u2014 MoE 35B \/ 3B \u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0445, \u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0439 FP8 \u043e\u0442 \u043a\u043e\u043c\u0430\u043d\u0434\u044b Qwen. \u041e\u0431\u0440\u0430\u0437 <code>vllm\/vllm-openai:cu130-nightly<\/code>.<\/p>\n<p>bash<\/p>\n<pre><code>docker run vllm\/vllm-openai:cu130-nightly \\  Qwen\/Qwen3.6-35B-A3B-FP8 \\  --max-model-len 65536 \\  --gpu-memory-utilization 0.85 \\  --port 8000<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u2014 52.5 tok\/s. \u042d\u0442\u043e \u0432 \u0434\u0432\u0430 \u0441 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u043e\u0439 \u0440\u0430\u0437\u0430 \u0431\u044b\u0441\u0442\u0440\u0435\u0435 Gemma. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32 \u044f \u043d\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b, \u0443\u043f\u0451\u0440\u0441\u044f \u0432 \u043b\u0438\u043c\u0438\u0442 concurrency \u043d\u0430 65K.<\/p>\n<p>\u041f\u0440\u0438\u0440\u043e\u0441\u0442 \u043e\u0442\u043d\u043e\u0441\u0438\u0442\u0435\u043b\u044c\u043d\u043e Gemma \u0434\u0430\u0451\u0442 \u0441\u0440\u0430\u0437\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0432\u0435\u0449\u0435\u0439. FP8 \u2014 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0430 \u0431\u0430\u0439\u0442\u0430 \u043d\u0430 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440 \u043f\u0440\u043e\u0442\u0438\u0432 BF16. \u0413\u0438\u0431\u0440\u0438\u0434\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 Qwen3.6 (Gated DeltaNet \u0438 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 attention) \u0434\u0430\u0451\u0442 \u043f\u043e\u0447\u0442\u0438 \u043b\u0438\u043d\u0435\u0439\u043d\u0443\u044e \u0441\u043b\u043e\u0436\u043d\u043e\u0441\u0442\u044c \u043d\u0430 \u0434\u043b\u0438\u043d\u043d\u043e\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0435. \u0410\u043a\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 3B \u043f\u0440\u043e\u0442\u0438\u0432 4B \u0443 Gemma \u2014 \u0442\u043e\u0436\u0435 \u0438\u0433\u0440\u0430\u0435\u0442 \u0432 \u043f\u043b\u044e\u0441.<\/p>\n<h4>Qwen3.6-35B-A3B-FP8 \u043d\u0430 260K<\/h4>\n<p>\u0422\u0430 \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c, \u043d\u043e \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0431\u0430\u0445\u043d\u0443\u043b \u0434\u043e 260K \u0441 \u044f\u0432\u043d\u044b\u043c FP8-\u043a\u044d\u0448\u0435\u043c.<\/p>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u2014 51.2 tok\/s, \u043c\u0438\u043d\u0443\u0441 \u0434\u0432\u0430 \u0441 \u043f\u043e\u043b\u043e\u0432\u0438\u043d\u043e\u0439 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u0430 \u043e\u0442 65K. \u041d\u0438\u0447\u0442\u043e\u0436\u043d\u043e. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32 \u2014 349.2 tok\/s. \u0422\u044f\u0436\u0451\u043b\u044b\u0439 2K \u2014 48.7 tok\/s.<\/p>\n<p>\u041d\u0430 FP8 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 65K \u043f\u0440\u043e\u0442\u0438\u0432 260K \u043d\u0430 \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0439 \u043f\u043e\u0442\u043e\u043a \u043d\u0435 \u0432\u043b\u0438\u044f\u0435\u0442. KV-pool \u0432\u044b\u0440\u0430\u0441\u0442\u0430\u0435\u0442 \u0441 805K \u0434\u043e 1.6M \u0442\u043e\u043a\u0435\u043d\u043e\u0432, \u043d\u043e \u043d\u0430 \u043e\u0434\u043d\u043e\u0433\u043e \u044e\u0437\u0435\u0440\u0430 \u0430\u043a\u0442\u0438\u0432\u043d\u043e \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f \u043d\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 30K. \u0423\u0437\u043a\u043e\u0435 \u043c\u0435\u0441\u0442\u043e \u0432 \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u043e\u0439 \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u0438 \u043f\u0430\u043c\u044f\u0442\u0438 \u043d\u0435 \u0437\u0430\u0432\u0438\u0441\u0438\u0442 \u043e\u0442 \u0434\u043b\u0438\u043d\u044b \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430.<\/p>\n<h4>RedHatAI\/Qwen3.6-35B-A3B-NVFP4 \u043d\u0430 260K<\/h4>\n<p>\u0422\u0430 \u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0432 \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u0438 NVFP4: \u0447\u0435\u0442\u044b\u0440\u0451\u0445\u0431\u0438\u0442\u043d\u044b\u0435 \u0432\u0435\u0441\u0430, FP8 \u0432 \u0431\u043b\u043e\u043a\u043e\u0432\u044b\u0445 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u0430\u0445. \u041d\u0430 \u0431\u0443\u043c\u0430\u0433\u0435 \u0432\u0434\u0432\u043e\u0435 \u043c\u0435\u043d\u044c\u0448\u0435 \u043f\u0430\u043c\u044f\u0442\u0438, \u0434\u043e\u043b\u0436\u043d\u043e \u0443\u0441\u043a\u043e\u0440\u0438\u0442\u044c \u0434\u0435\u043a\u043e\u0434.<\/p>\n<p>bash<\/p>\n<pre><code>docker run vllm\/vllm-openai:cu130-nightly \\  RedHatAI\/Qwen3.6-35B-A3B-NVFP4 \\  --max-model-len 260000 \\  --gpu-memory-utilization 0.85 \\  --moe-backend flashinfer_cutlass \\  --kv-cache-dtype fp8<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u2014 40.9 tok\/s. <strong>\u041c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435<\/strong>, \u0447\u0435\u043c FP8. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 8 \u2014 232 tok\/s, FP8 \u0432\u044b\u0438\u0433\u0440\u044b\u0432\u0430\u0435\u0442 \u043d\u0430 concurrency. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32 \u2014 448 tok\/s.<\/p>\n<p>\u0412 \u043b\u043e\u0433\u0430\u0445 vLLM \u0437\u043d\u0430\u0447\u0438\u043b\u043e\u0441\u044c <code>[AutoTuner]: Skipped 10 unsupported tactic(s) for trtllm::fused_moe::gemm2<\/code>. \u041f\u043e\u043b\u0435\u0437 \u043a\u043e\u043f\u0430\u0442\u044c, \u043d\u0430\u0448\u0451\u043b flashinfer issue #3170 \u00abDGX Spark \/ SM121 Audit\u00bb. \u0422\u0430\u043c \u0441\u0435\u043c\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u043f\u0443\u043d\u043a\u0442\u043e\u0432, \u0438 \u0441\u0440\u0435\u0434\u0438 \u043d\u0438\u0445 \u0438\u043c\u0435\u043d\u043d\u043e \u0442\u043e, \u0447\u0442\u043e \u043e\u043f\u0438\u0441\u0430\u043d\u043e \u0432\u044b\u0448\u0435: \u044f\u0434\u0440\u0430 \u043f\u043e\u0434 <code>compute_120f<\/code>, \u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0435 NVFP4-\u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u0438 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 <code>compute_120a\/121a<\/code>, \u043d\u0430 SM_121 \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u043a\u0432\u0430\u043d\u0442\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0432\u0435\u0441\u043e\u0432 \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u044b\u0435 \u0431\u0438\u0442\u043e\u0432\u044b\u0435 \u043c\u0430\u043d\u0438\u043f\u0443\u043b\u044f\u0446\u0438\u0438. CUTLASS-\u044f\u0434\u0440\u043e <code>dense_blockscaled_gemm_sm120.py:1591<\/code> \u0441\u0442\u0440\u043e\u043a\u043e\u0439 <code>if sm_version != \"sm_120\"<\/code> \u043e\u0442\u0432\u0435\u0440\u0433\u0430\u0435\u0442 SM_121 \u0446\u0435\u043b\u0438\u043a\u043e\u043c. \u041a\u0443\u0431\u0438\u043d\u043e\u0432 TRTLLM-gen FMHA \u0434\u043b\u044f SM_121 \u043d\u0435 \u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442 (issue #11799).<\/p>\n<p>\u0418\u0442\u043e\u0433: NVFP4 \u043d\u0430 DGX Spark \u0432 \u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435 \u043f\u043e\u0434\u043b\u043e\u043c\u043b\u0435\u043d \u043d\u0430 \u0443\u0440\u043e\u0432\u043d\u0435 \u044f\u0434\u0435\u0440. \u041f\u0440\u043e\u0444\u0438\u0442 \u043f\u043e \u043f\u0430\u043c\u044f\u0442\u0438 (\u0432\u0434\u0432\u043e\u0435 \u043c\u0435\u043d\u044c\u0448\u0435 \u0431\u0430\u0439\u0442\u043e\u0432) \u043a\u043e\u043c\u043f\u0435\u043d\u0441\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043d\u0430\u043a\u043b\u0430\u0434\u043d\u044b\u043c\u0438 \u0440\u0430\u0441\u0445\u043e\u0434\u0430\u043c\u0438 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u043e\u0439 \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0438.<\/p>\n<h4>NVFP4 + MTP speculative \u043d\u0430 131K<\/h4>\n<p>\u0414\u0430\u043b\u044c\u0448\u0435 \u044f \u0432\u0437\u044f\u043b \u0440\u0435\u0446\u0435\u043f\u0442 \u0421\u0442\u0438\u0432\u0430 \u0421\u043a\u0430\u0440\u0433\u0430\u043b\u043b\u0430 \u0438 \u0434\u043e\u0431\u0430\u0432\u0438\u043b MTP \u2014 Multi-Token Prediction. \u042d\u0442\u043e \u043d\u0430\u0442\u0438\u0432\u043d\u0430\u044f \u0444\u0438\u0447\u0430 Qwen3.6: \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439 \u0432 \u0441\u0430\u043c\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0441\u043b\u0435\u0434\u0443\u044e\u0449\u0438\u0439 \u0442\u043e\u043a\u0435\u043d \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e \u0441 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u043c forward pass. \u0415\u0441\u043b\u0438 \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u0430\u043d\u0438\u0435 \u0441\u043e\u0432\u043f\u0430\u0434\u0430\u0435\u0442 \u2014 \u044d\u043a\u043e\u043d\u043e\u043c\u0438\u043c \u043e\u0434\u0438\u043d \u0448\u0430\u0433 \u0434\u0435\u043a\u043e\u0434\u0430.<\/p>\n<pre><code class=\"bash\">docker run vllm\/vllm-openai:cu130-nightly \\  RedHatAI\/Qwen3.6-35B-A3B-NVFP4 \\  --max-model-len 131072 \\  --gpu-memory-utilization 0.87 \\  --moe-backend flashinfer_cutlass \\  --kv-cache-dtype fp8_e4m3 \\  --max-num-batched-tokens 32768 \\  --max-num-seqs 32 \\  --enable-chunked-prefill --enable-prefix-caching \\  --speculative-config '{\"method\":\"mtp\",\"num_speculative_tokens\":1}'<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041d\u0430 \u0437\u0430\u043f\u0443\u0441\u043a\u0435 \u043f\u043e\u0439\u043c\u0430\u043b <code>AssertionError: In Mamba cache align mode, block_size (2112) must be &lt;= max_num_batched_tokens (2048)<\/code>. \u041b\u0435\u0447\u0438\u0442\u0441\u044f \u043e\u0431\u044f\u0437\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u043c <code>--max-num-batched-tokens 32768<\/code>. \u0413\u0438\u0431\u0440\u0438\u0434\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 Qwen3-Next \u0441 GDN \u0438 Mamba-\u0441\u043b\u043e\u044f\u043c\u0438 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 block_size.<\/p>\n<p>\u0415\u0449\u0451 \u043e\u0434\u043d\u0430 \u0437\u0430\u0441\u0430\u0434\u0430: \u0434\u043b\u044f Qwen3.6 \u0441\u0442\u0440\u043e\u0433\u043e <code>num_speculative_tokens=1<\/code>. MTP \u2014 \u044d\u0442\u043e \u043e\u0434\u0438\u043d \u0441\u043b\u043e\u0439 \u0432 \u043c\u043e\u0434\u0435\u043b\u0438, \u0438 \u0431\u043e\u043b\u044c\u0448\u0435 \u043e\u0434\u043d\u043e\u0433\u043e \u0441\u043f\u0435\u043a\u0443\u043b\u044f\u0442\u0438\u0432\u043d\u043e\u0433\u043e \u0442\u043e\u043a\u0435\u043d\u0430 \u0434\u0430\u0451\u0442 \u043d\u043e\u043b\u044c \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u043e\u0432 acceptance (<a href=\"https:\/\/github.com\/vllm-project\/vllm\/issues\/36331\" rel=\"noopener noreferrer nofollow\">issue #36331<\/a>).<\/p>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u2014 54.1 tok\/s, \u043f\u043b\u044e\u0441 \u0448\u0435\u0441\u0442\u044c \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u043e\u0432 \u043a \u0447\u0438\u0441\u0442\u043e\u043c\u0443 FP8 \u0438 \u043f\u043b\u044e\u0441 \u0442\u0440\u0438\u0434\u0446\u0430\u0442\u044c \u0434\u0432\u0430 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u0430 \u043a NVFP4 \u0431\u0435\u0437 speculative. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 8 \u2014 160 tok\/s (\u043f\u043b\u044e\u0441 \u0434\u0435\u0432\u044f\u0442\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u043e\u0432 \u043a FP8). \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 16 \u2014 400.7 tok\/s (\u043f\u043b\u044e\u0441 \u0441\u043e\u0440\u043e\u043a \u0434\u0432\u0430). \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32 \u2014 498.6 tok\/s (\u043f\u043b\u044e\u0441 \u0441\u043e\u0440\u043e\u043a \u0442\u0440\u0438, \u043f\u0438\u043a \u0432 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0435). MTP acceptance \u2014 \u043e\u043a\u043e\u043b\u043e \u0432\u043e\u0441\u044c\u043c\u0438\u0434\u0435\u0441\u044f\u0442\u0438 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u043e\u0432.<\/p>\n<p>MTP \u0437\u0430\u043c\u0435\u0442\u043d\u043e \u0441\u0438\u043b\u044c\u043d\u0435\u0435 \u043d\u0430 \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0435: \u0431\u043e\u043b\u044c\u0448\u0435 \u043c\u0435\u0441\u0442\u0430 \u0434\u043b\u044f \u0430\u043c\u043e\u0440\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043f\u0435\u043a\u0443\u043b\u044f\u0442\u0438\u0432\u043d\u044b\u0445 \u043d\u0430\u043a\u043b\u0430\u0434\u043e\u043a \u0447\u0435\u0440\u0435\u0437 batched verification.<\/p>\n<h4>AEON-7 DFlash \u043d\u0430 260K \u2014 \u043f\u043e\u0431\u0435\u0434\u0438\u0442\u0435\u043b\u044c<\/h4>\n<p>\u042d\u0442\u043e\u0442 \u0444\u043e\u0440\u043a \u044f \u043d\u0430\u0448\u0451\u043b \u0447\u0435\u0440\u0435\u0437 NVIDIA developer forum. \u0420\u0435\u043f\u043e\u0437\u0438\u0442\u043e\u0440\u0438\u0439 <a href=\"https:\/\/github.com\/AEON-7\/Qwen3.6-NVFP4-DFlash\" rel=\"noopener noreferrer nofollow\">AEON-7\/Qwen3.6-NVFP4-DFlash<\/a>. \u0412\u043d\u0443\u0442\u0440\u0438:<\/p>\n<p>\u2014 vLLM, \u0441\u043e\u0431\u0440\u0430\u043d\u043d\u044b\u0439 \u0438\u0437 \u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432 \u0441 HEAD, \u043f\u043b\u044e\u0441 \u0441\u0435\u043c\u044c \u043f\u0430\u0442\u0447\u0435\u0439. \u0421\u0440\u0435\u0434\u0438 \u043d\u0438\u0445 <code>register_qwen3_5_text.py<\/code>, \u0447\u0435\u0442\u044b\u0440\u0435 \u043f\u0430\u0442\u0447\u0430 \u043d\u0430 <code>patch_kv_cache_utils.py<\/code>, \u043f\u0430\u0442\u0447 \u043d\u0430 mrope-fallback, \u043f\u0430\u0442\u0447 \u043d\u0430 \u0432\u044b\u0440\u0430\u0432\u043d\u0438\u0432\u0430\u043d\u0438\u0435 CUDAGraph. \u2014 Build target <code>TORCH_CUDA_ARCH_LIST=\"12.0+PTX\"<\/code> \u043f\u043b\u044e\u0441 \u043f\u0435\u0440\u0435\u043c\u0435\u043d\u043d\u0430\u044f <code>VLLM_TEST_FORCE_FP8_MARLIN=1<\/code>. \u2014 FlashInfer 0.6.8 \u0441 PR #2520 \u0438 #2702 (\u044f\u0434\u0440\u0430 NVFP4 KV-cache decode \u0434\u043b\u044f sm_120). \u2014 \u041c\u043e\u0434\u0435\u043b\u044c <code>AEON-7\/Qwen3.6-35B-A3B-heretic-NVFP4<\/code> \u2014 abliterated fine-tune Qwen3.6 (\u0431\u0435\u0437 safety filtering, KL divergence 0.000492 \u043e\u0442 \u0431\u0430\u0437\u043e\u0432\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438, \u0432 README \u0437\u0430\u044f\u0432\u043b\u0435\u043d\u043e \u0447\u0442\u043e capacity preserved). \u041b\u0438\u0446\u0435\u043d\u0437\u0438\u044f Apache 2.0, \u043c\u0443\u043b\u044c\u0442\u0438\u043c\u043e\u0434\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u044c \u0441\u043e\u0445\u0440\u0430\u043d\u0435\u043d\u0430, \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u044f \u0432 NVFP4. \u041a\u043e\u0440\u043f\u043e\u0440\u0430\u0442\u0438\u0432\u043d\u044b\u043c \u0437\u0430\u043a\u0430\u0437\u0447\u0438\u043a\u0430\u043c \u0441 compliance-\u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u044f\u043c\u0438 \u043f\u043e safety \u044d\u0442\u043e\u0442 \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 \u043d\u0435 \u043f\u043e\u0434\u043e\u0439\u0434\u0451\u0442 \u2014 \u0431\u0435\u0440\u0438\u0442\u0435 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 <code>Qwen\/Qwen3.6-35B-A3B-FP8<\/code> (\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043d\u0438\u0436\u0435, \u043d\u043e \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 \u0440\u043e\u0434\u043d\u0430\u044f). \u2014 Drafter <code>z-lab\/Qwen3.6-35B-A3B-DFlash<\/code> \u2014 block-diffusion, \u0434\u043e\u043e\u0431\u0443\u0447\u0435\u043d\u044b \u043f\u044f\u0442\u044c \u0441\u043b\u043e\u0451\u0432, \u0435\u0441\u0442 \u043f\u0440\u043e\u043c\u0435\u0436\u0443\u0442\u043e\u0447\u043d\u044b\u0435 \u0441\u043a\u0440\u044b\u0442\u044b\u0435 \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u044f \u0438\u0437 \u0441\u043b\u043e\u0451\u0432 1, 16, 31, 46, 61 \u0446\u0435\u043b\u0435\u0432\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0438 \u0437\u0430 \u043e\u0434\u0438\u043d forward pass \u043f\u0440\u0435\u0434\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u0442 \u0431\u043b\u043e\u043a \u0438\u0437 \u0448\u0435\u0441\u0442\u043d\u0430\u0434\u0446\u0430\u0442\u0438 \u0442\u043e\u043a\u0435\u043d\u043e\u0432.<\/p>\n<p>bash<\/p>\n<pre><code>docker run \\  -v \/opt\/qwen36\/qwen36-nvfp4:\/models\/qwen36 \\  -v \/opt\/qwen36\/qwen36-dflash:\/models\/qwen36-dflash \\  ghcr.io\/aeon-7\/vllm-spark-omni-q36:v1.2 \\  bash -c \"exec vllm serve \/models\/qwen36 \\    --max-model-len 262144 --max-num-seqs 128 \\    --max-num-batched-tokens 65536 \\    --gpu-memory-utilization 0.85 \\    --enable-chunked-prefill --enable-prefix-caching \\    --reasoning-parser qwen3 \\    --speculative-config '{\\\"method\\\":\\\"dflash\\\",\\\"model\\\":\\\"\/models\/qwen36-dflash\\\",\\\"num_speculative_tokens\\\":15}' \\    --attention-backend flash_attn\"<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a \u0432\u00a0\u0441\u0440\u0435\u0434\u043d\u0435\u043c\u00a0\u2014 69.7\u00a0tok\/s. \u042d\u0442\u043e \u0432\u0442\u0440\u043e\u0435 \u0431\u043e\u043b\u044c\u0448\u0435 \u0431\u0430\u0437\u043e\u0432\u043e\u0439 Gemma \u0438 \u043d\u0430\u00a0\u0442\u0440\u0438\u0434\u0446\u0430\u0442\u044c \u0447\u0435\u0442\u044b\u0440\u0435 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u0430 \u0431\u043e\u043b\u044c\u0448\u0435 \u0447\u0438\u0441\u0442\u043e\u0433\u043e FP8. \u041f\u0438\u043a\u043e\u0432\u0430\u044f \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u043c \u043f\u043e\u0442\u043e\u043a\u0435\u00a0\u2014 107\u00a0tok\/s, \u043b\u043e\u0432\u0438\u0442\u0441\u044f \u043d\u0430\u00a0\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0438 \u043a\u043e\u0434\u043e\u0432\u044b\u0445 \u043f\u0440\u043e\u043c\u043f\u0442\u0430\u0445. TTFT \u0442\u0451\u043f\u043b\u044b\u0439\u00a0\u2014 \u043e\u043a\u043e\u043b\u043e \u0441\u0442\u0430 \u043c\u0438\u043b\u043b\u0438\u0441\u0435\u043a\u0443\u043d\u0434 (\u0441 \u0443\u0447\u0451\u0442\u043e\u043c \u043a\u043e\u043c\u043f\u0438\u043b\u044f\u0446\u0438\u0438 drafter). \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 4\u00a0\u2014 152.8\u00a0tok\/s \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e (\u043f\u043b\u044e\u0441 \u0442\u0440\u0438\u0434\u0446\u0430\u0442\u044c \u0447\u0435\u0442\u044b\u0440\u0435 \u043e\u0442\u00a0FP8). \u0422\u044f\u0436\u0451\u043b\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 2K \u043d\u0430 400\u00a0\u043e\u0442\u0432\u0435\u0442\u0430\u00a0\u2014 73.4\u00a0tok\/s (\u043f\u043b\u044e\u0441 \u043f\u044f\u0442\u044c\u0434\u0435\u0441\u044f\u0442 \u043f\u0440\u043e\u0446\u0435\u043d\u0442\u043e\u0432 \u043e\u0442\u00a0FP8). Acceptance DFlash\u00a0\u2014 17.8% \u043e\u0431\u0449\u0438\u0439, 78% \u043d\u0430\u00a0\u043d\u0443\u043b\u0435\u0432\u043e\u0439 \u043f\u043e\u0437\u0438\u0446\u0438\u0438 \u0434\u043b\u044f\u00a0\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0438 \u0438 \u043a\u043e\u0434\u0430.<\/p>\n<p><strong>\u0418\u0437\u0432\u0435\u0441\u0442\u043d\u043e\u0435 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435, \u0432\u0430\u0436\u043d\u043e\u0435 \u0434\u043b\u044f\u00a0agentic\u2011\u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0435\u0432:<\/strong> \u043d\u0430\u00a0heretic\u2011\u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u0435 \u0441\u043b\u043e\u043c\u0430\u043d tool calling. \u041c\u043e\u0434\u0435\u043b\u044c \u0432\u0438\u0434\u0438\u0442 OpenAI\u2011\u0441\u043e\u0432\u043c\u0435\u0441\u0442\u0438\u043c\u044b\u0439 <code>tools<\/code> payload \u0432\u00a0\u0437\u0430\u043f\u0440\u043e\u0441\u0435, \u043d\u043e\u00a0\u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 \u043f\u0443\u0441\u0442\u043e\u0439 <code>tool_calls: []<\/code> \u0438 <code>finish_reason: length<\/code> \u0432\u043c\u0435\u0441\u0442\u043e \u0432\u044b\u0437\u043e\u0432\u0430 \u0444\u0443\u043d\u043a\u0446\u0438\u0438. Issue <a href=\"https:\/\/github.com\/AEON-7\/Qwen3.6-NVFP4-DFlash\/issues\/4\" rel=\"noopener noreferrer nofollow\">#4<\/a> \u043d\u0430\u00a0GitHub \u043e\u0442\u043a\u0440\u044b\u0442 \u0431\u0435\u0437\u00a0\u0444\u0438\u043a\u0441\u0430. \u0414\u043b\u044f\u00a0\u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u043e\u0433\u043e \u0447\u0430\u0442\u0430 \u0438 RAG \u044d\u0442\u043e \u043d\u0435\u00a0\u043a\u0440\u0438\u0442\u0438\u0447\u043d\u043e. \u0414\u043b\u044f\u00a0Dify\u2011\u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0441\u00a0function calling, MCP\u2011\u0438\u043d\u0442\u0435\u0433\u0440\u0430\u0446\u0438\u0439 \u0438 \u043b\u044e\u0431\u044b\u0445 workflow \u0441\u00a0\u0432\u044b\u0437\u043e\u0432\u043e\u043c \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432\u00a0\u2014 \u0431\u0435\u0440\u0438\u0442\u0435 \u0432\u043c\u0435\u0441\u0442\u043e AEON-7\u00a0\u0447\u0438\u0441\u0442\u044b\u0439 <code>Qwen\/Qwen3.6-35B-A3B-FP8<\/code> \u0431\u0435\u0437\u00a0heretic\u2011fine\u2011tune. \u0421\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043d\u0438\u0436\u0435 (51\u00a0vs 70\u00a0tok\/s), \u043d\u043e\u00a0tool calling \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.<\/p>\n<p>\u0420\u0430\u0437\u0431\u0440\u043e\u0441 \u043f\u043e\u00a0\u0442\u0438\u043f\u0430\u043c \u0437\u0430\u0434\u0430\u0447 \u043e\u0433\u0440\u043e\u043c\u043d\u044b\u0439:<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th>\n<p align=\"left\">\u0422\u0438\u043f \u043f\u0440\u043e\u043c\u043f\u0442\u0430<\/p>\n<\/th>\n<th>\n<p align=\"left\">tok\/s<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u041c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430 (T=0)<\/p>\n<\/td>\n<td>\n<p align=\"left\">117<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">Python\u2011\u043a\u043e\u0434 (T=0)<\/p>\n<\/td>\n<td>\n<p align=\"left\">103\u2013114<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0414\u043b\u0438\u043d\u043d\u043e\u0435 \u0440\u0430\u0441\u0441\u0443\u0436\u0434\u0435\u043d\u0438\u0435<\/p>\n<\/td>\n<td>\n<p align=\"left\">70<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u0411\u0438\u0437\u043d\u0435\u0441\u2011\u0447\u0430\u0442 \u043d\u0430\u00a0\u0440\u0443\u0441\u0441\u043a\u043e\u043c<\/p>\n<\/td>\n<td>\n<p align=\"left\">45\u201357<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u041a\u0440\u0435\u0430\u0442\u0438\u0432\u043d\u043e\u0435 \u043f\u0438\u0441\u044c\u043c\u043e<\/p>\n<\/td>\n<td>\n<p align=\"left\">33\u201350<\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>\u0422\u043e\u0442 \u0441\u0430\u043c\u044b\u0439 \u0440\u0430\u0437\u0431\u0440\u043e\u0441 41\u2013127\u00a0tok\/s \u0438\u0437\u00a0README AEON-7. \u041d\u0430\u00a0\u0441\u0442\u0440\u0443\u043a\u0442\u0443\u0440\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0437\u0430\u0434\u0430\u0447\u0430\u0445 (\u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430, \u043a\u043e\u0434, SQL) drafter \u043f\u043e\u043f\u0430\u0434\u0430\u0435\u0442 \u043c\u043d\u043e\u0433\u043e \u0440\u0430\u0437 \u043f\u043e\u0434\u0440\u044f\u0434, \u0441\u043f\u0435\u043a\u0443\u043b\u044f\u0442\u0438\u0432\u043d\u044b\u0435 \u043d\u0430\u043a\u043b\u0430\u0434\u043a\u0438 \u0430\u043c\u043e\u0440\u0442\u0438\u0437\u0438\u0440\u0443\u044e\u0442\u0441\u044f. \u041d\u0430\u00a0\u043e\u0442\u043a\u0440\u044b\u0442\u043e\u043c \u043f\u0438\u0441\u044c\u043c\u0435 drafter \u043f\u0440\u043e\u043c\u0430\u0445\u0438\u0432\u0430\u0435\u0442\u0441\u044f, \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043e\u0442\u043a\u0430\u0442\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043a\u00a0\u0431\u0430\u0437\u043e\u0432\u044b\u043c \u0441\u043e\u0440\u043e\u043a\u0430.<\/p>\n<h2>\u0421\u0440\u0430\u0432\u043d\u0438\u0442\u0435\u043b\u044c\u043d\u0430\u044f \u0442\u0430\u0431\u043b\u0438\u0446\u0430<\/h2>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<th data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\n<\/th>\n<th>\n<p align=\"left\">Gemma 4 BF16 252K<\/p>\n<\/th>\n<th>\n<p align=\"left\">FP8 65K<\/p>\n<\/th>\n<th>\n<p align=\"left\">FP8 260K<\/p>\n<\/th>\n<th>\n<p align=\"left\">NVFP4 260K<\/p>\n<\/th>\n<th>\n<p align=\"left\">NVFP4+MTP 131K<\/p>\n<\/th>\n<th>\n<p align=\"left\">AEON-7 DFlash 260K<\/p>\n<\/th>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a (\u0441\u0440\u0435\u0434\u043d\u0435\u0435)<\/p>\n<\/td>\n<td>\n<p align=\"left\">23.3<\/p>\n<\/td>\n<td>\n<p align=\"left\">52.5<\/p>\n<\/td>\n<td>\n<p align=\"left\">51.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">40.9<\/p>\n<\/td>\n<td>\n<p align=\"left\">54.1<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>69.7<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041e\u0434\u0438\u043d \u043f\u043e\u0442\u043e\u043a (\u043f\u0438\u043a)<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">41<\/p>\n<\/td>\n<td>\n<p align=\"left\">59<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>107<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">TTFT \u0442\u0451\u043f\u043b\u044b\u0439<\/p>\n<\/td>\n<td>\n<p align=\"left\">100ms<\/p>\n<\/td>\n<td>\n<p align=\"left\">~50ms<\/p>\n<\/td>\n<td>\n<p align=\"left\">61ms<\/p>\n<\/td>\n<td>\n<p align=\"left\">~70ms<\/p>\n<\/td>\n<td>\n<p align=\"left\">~65ms<\/p>\n<\/td>\n<td>\n<p align=\"left\">~100ms<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 4<\/p>\n<\/td>\n<td>\n<p align=\"left\">70.0<\/p>\n<\/td>\n<td>\n<p align=\"left\">107.6<\/p>\n<\/td>\n<td>\n<p align=\"left\">114.9<\/p>\n<\/td>\n<td>\n<p align=\"left\">109<\/p>\n<\/td>\n<td>\n<p align=\"left\">113.1<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>152.8<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 16<\/p>\n<\/td>\n<td>\n<p align=\"left\">179.7<\/p>\n<\/td>\n<td>\n<p align=\"left\">273.7<\/p>\n<\/td>\n<td>\n<p align=\"left\">283.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">369<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>400.7<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">266.8<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 32<\/p>\n<\/td>\n<td>\n<p align=\"left\">297.8<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">349.2<\/p>\n<\/td>\n<td>\n<p align=\"left\">448<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>498.6<\/strong><\/p>\n<\/td>\n<td>\n<p align=\"left\">350.1<\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u0422\u044f\u0436\u0451\u043b\u044b\u0439 2K<\/p>\n<\/td>\n<td>\n<p align=\"left\">22.5<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u2014<\/p>\n<\/td>\n<td>\n<p align=\"left\">48.7<\/p>\n<\/td>\n<td>\n<p align=\"left\">39.5<\/p>\n<\/td>\n<td>\n<p align=\"left\">48.8<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>73.4<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430<\/p>\n<\/td>\n<td>\n<p align=\"left\">252K<\/p>\n<\/td>\n<td>\n<p align=\"left\">65K<\/p>\n<\/td>\n<td>\n<p align=\"left\">260K<\/p>\n<\/td>\n<td>\n<p align=\"left\">260K<\/p>\n<\/td>\n<td>\n<p align=\"left\">131K<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>260K<\/strong><\/p>\n<\/td>\n<\/tr>\n<tr>\n<td data-colwidth=\"157\" width=\"157\">\n<p align=\"left\">\u041f\u0430\u043c\u044f\u0442\u044c \u043d\u0430 \u043c\u043e\u0434\u0435\u043b\u044c<\/p>\n<\/td>\n<td>\n<p align=\"left\">49 GiB<\/p>\n<\/td>\n<td>\n<p align=\"left\">35<\/p>\n<\/td>\n<td>\n<p align=\"left\">35<\/p>\n<\/td>\n<td>\n<p align=\"left\">22<\/p>\n<\/td>\n<td>\n<p align=\"left\">22<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>22<\/strong><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>AEON-7 DFlash \u2014 \u043b\u0443\u0447\u0448\u0438\u0439 \u043d\u0430 \u043e\u0434\u043d\u043e\u043c \u043f\u043e\u0442\u043e\u043a\u0435 \u0438 \u043f\u0440\u0438 \u043d\u0435\u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e\u0441\u0442\u0438. \u042d\u0442\u043e \u0442\u0438\u043f\u0438\u0447\u043d\u044b\u0439 \u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0439 \u0431\u0438\u0437\u043d\u0435\u0441-\u0447\u0430\u0442\u0430. NVFP4+MTP \u2014 \u043b\u0443\u0447\u0448\u0438\u0439 \u043f\u0440\u0438 \u0432\u044b\u0441\u043e\u043a\u043e\u0439 \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e\u0439 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0435.<\/p>\n<p><strong>\u0427\u0442\u043e\u00a0\u0432 \u0438\u0442\u043e\u0433\u0435 \u0432\u044b\u0431\u0440\u0430\u0442\u044c<\/strong><\/p>\n<p>\u0414\u043b\u044f\u00a0\u0431\u0438\u0437\u043d\u0435\u0441\u2011\u0447\u0430\u0442\u0430, RAG \u0438 Dify \u044f \u043e\u0441\u0442\u0430\u043d\u043e\u0432\u0438\u043b\u0441\u044f \u043d\u0430\u00a0AEON-7\u00a0DFlash 260K. 70\u00a0tok\/s \u043d\u0430\u00a0\u0431\u0438\u0437\u043d\u0435\u0441\u2011\u0447\u0430\u0442\u0435, 100+ \u043d\u0430\u00a0\u043a\u043e\u0434\u0435, \u043f\u043e\u043b\u043d\u044b\u0435 260K \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430. \u0414\u0443\u043c\u0430\u043b\u043a\u0430 \u0432\u00a0Dify \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432\u00a0\u043f\u043e\u043b\u0435 <code>reasoning_content<\/code>, Dify \u0435\u0433\u043e \u0441\u0432\u043e\u0440\u0430\u0447\u0438\u0432\u0430\u0435\u0442, \u044e\u0437\u0435\u0440 \u0432\u0438\u0434\u0438\u0442 \u0447\u0438\u0441\u0442\u044b\u0439 \u0444\u0438\u043d\u0430\u043b\u044c\u043d\u044b\u0439 \u043e\u0442\u0432\u0435\u0442.<\/p>\n<p>\u0414\u043b\u044f\u00a0\u0418\u0418\u2011\u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0441\u00a0function calling \u0438 MCP\u2011\u043f\u043b\u0430\u0433\u0438\u043d\u043e\u0432 AEON-7\u00a0\u043d\u0435\u00a0\u043f\u043e\u0434\u0445\u043e\u0434\u0438\u0442: \u043d\u0430\u00a0heretic\u2011\u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442\u0435 \u0441\u043b\u043e\u043c\u0430\u043d tool calling (<a href=\"https:\/\/github.com\/AEON-7\/Qwen3.6-NVFP4-DFlash\/issues\/4\" rel=\"noopener noreferrer nofollow\">Issue #4<\/a>). \u0422\u0443\u0442 \u043d\u0443\u0436\u0435\u043d \u0447\u0438\u0441\u0442\u044b\u0439 Qwen3.6-FP8 260K\u00a0\u2014 \u043e\u043d \u0447\u0443\u0442\u044c \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435, \u0437\u0430\u0442\u043e tools \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442.<\/p>\n<p>\u0414\u043b\u044f\u00a0\u043f\u0430\u043a\u0435\u0442\u043d\u043e\u0439 \u043e\u0431\u0440\u0430\u0431\u043e\u0442\u043a\u0438 \u0438\u043b\u0438\u00a0API\u2011\u0441\u0435\u0440\u0432\u0438\u0441\u0430 \u0441\u00a0\u0431\u043e\u043b\u044c\u0448\u0438\u043c \u043a\u043e\u043b\u0438\u0447\u0435\u0441\u0442\u0432\u043e\u043c \u044e\u0437\u0435\u0440\u043e\u0432 \u043b\u0443\u0447\u0448\u0435 \u0431\u0440\u0430\u0442\u044c NVFP4+MTP 131K. \u0421\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u0433\u043e \u044e\u0437\u0435\u0440\u0430 \u043d\u0438\u0436\u0435, \u043d\u043e\u00a0\u0441\u0443\u043c\u043c\u0430\u0440\u043d\u0430\u044f \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0430\u044f \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c \u0432\u044b\u0448\u0435  500 tok\/s \u043d\u0430 32 \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u044b\u0445 \u0437\u0430\u043f\u0440\u043e\u0441\u0430\u0445.  <\/p>\n<p>\u0415\u0441\u043b\u0438 \u043d\u0443\u0436\u043d\u0430 \u0441\u0442\u0430\u0431\u0438\u043b\u044c\u043d\u043e\u0441\u0442\u044c, \u0430\u00a0\u043d\u0435\u00a0\u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438\u00a0\u2014 Qwen3.6-FP8 260K. 53\u00a0tok\/s, \u0431\u0435\u0437\u00a0\u0444\u043e\u0440\u043a\u043e\u0432, \u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0439 \u0441\u0431\u043e\u0440\u043a\u0435 vLLM. \u041d\u0438\u043a\u0430\u043a\u0438\u0445 \u043a\u0430\u0441\u0442\u043e\u043c\u043d\u044b\u0445 \u0431\u0438\u043b\u0434\u043e\u0432 \u0438 tool calling \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438\u0437\u00a0\u043a\u043e\u0440\u043e\u0431\u043a\u0438, \u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430 \u0431\u0435\u0437\u043e\u043f\u0430\u0441\u043d\u043e\u0441\u0442\u0438\u00a0\u2014 \u0440\u043e\u0434\u043d\u0430\u044f Qwen. <\/p>\n<h3>\u0412\u00a0\u0441\u0443\u0445\u043e\u043c \u043e\u0441\u0442\u0430\u0442\u043a\u0435<\/h3>\n<p>\u041c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433\u043e\u0432\u044b\u0439 \u00ab\u043e\u0434\u0438\u043d \u043f\u0435\u0442\u0430\u0444\u043b\u043e\u043f \u043d\u0430\u00a0FP4\u00bb \u043d\u0430\u00a0DGX Spark \u0432\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u0438 \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0443\u044e \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c \u043f\u0430\u043c\u044f\u0442\u0438 \u0438 \u0432\u00a0\u0442\u043e, \u0447\u0442\u043e\u00a0\u043e\u0442\u043a\u0440\u044b\u0442\u044b\u0439 \u0441\u0442\u0435\u043a \u0434\u043e\u00a0\u0441\u0438\u0445 \u043f\u043e\u0440 \u043d\u0435\u00a0\u0434\u043e\u0432\u0435\u0434\u0451\u043d \u043f\u043e\u0434\u00a0SM_121\u00a0\u043a\u0430\u043a\u00a0\u0441\u043b\u0435\u0434\u0443\u0435\u0442. \u0421\u043e\u0440\u043e\u043a \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443 \u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0439 \u0441\u0431\u043e\u0440\u043a\u0435\u00a0\u2014 \u044d\u0442\u043e \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u0443\u0440\u043e\u0432\u0435\u043d\u044c \u0433\u043e\u0442\u043e\u0432\u043d\u043e\u0441\u0442\u0438 \u044d\u043a\u043e\u0441\u0438\u0441\u0442\u0435\u043c\u044b.<\/p>\n<p>\u0421\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u0443\u0448\u043b\u043e \u0432\u043f\u0435\u0440\u0451\u0434: AEON-7, \u0421\u0442\u0438\u0432 \u0421\u043a\u0430\u0440\u0433\u0430\u043b\u043b, Avarok \u0440\u0430\u0437\u043e\u0433\u043d\u0430\u043b\u0438 NVFP4\u00a0\u0432\u00a0\u043e\u0442\u043a\u0440\u044b\u0442\u043e\u043c \u0441\u0442\u0435\u043a\u0435 \u0447\u0435\u0440\u0435\u0437 \u0444\u043e\u0440\u043a\u0438 vLLM, \u043f\u0430\u0442\u0447\u0438 FlashInfer \u0438 speculative decoding. \u0423\u00a0\u043a\u043e\u0433\u043e Spark \u0438 \u043d\u0443\u0436\u0435\u043d \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0439 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u043d\u0430 35B\u2011\u043c\u043e\u0434\u0435\u043b\u044f\u0445 \u0441\u00a0\u0434\u043b\u0438\u043d\u043d\u044b\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043e\u043c\u00a0\u2014 \u0441\u0442\u0430\u0432\u044c\u0442\u0435 AEON-7.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0435\u0441\u0442\u044c \u0441\u0432\u043e\u0438 \u0437\u0430\u043c\u0435\u0440\u044b \u0438\u043b\u0438\u00a0\u0434\u0440\u0443\u0433\u0438\u0435 \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u0440\u0435\u0446\u0435\u043f\u0442\u044b\u00a0\u2014 \u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u0435 \u0432\u00a0\u043a\u043e\u043c\u043c\u0435\u043d\u0442\u0430\u0440\u0438\u0438. \u0422\u0435\u043c\u0430 \u0441\u043b\u043e\u0436\u043d\u0430\u044f, \u0438\u043d\u0444\u043e\u0440\u043c\u0430\u0446\u0438\u044f \u0440\u0430\u0437\u0431\u0440\u043e\u0441\u0430\u043d\u0430 \u043f\u043e\u00a0\u0444\u043e\u0440\u0443\u043c\u0430\u043c, \u0438 \u043f\u0440\u043e\u0432\u0435\u0440\u0435\u043d\u043d\u044b\u0435 \u0440\u0443\u043a\u0430\u043c\u0438 \u0446\u0438\u0444\u0440\u044b \u0432\u0435\u0441\u044c\u043c\u0430 \u0446\u0435\u043d\u043d\u044b\u0439 \u0440\u0435\u0441\u0443\u0440\u0441. <\/p>\n<h3>\u0418\u0441\u0442\u043e\u0447\u043d\u0438\u043a\u0438<\/h3>\n<ul>\n<li>\n<p><a href=\"https:\/\/github.com\/flashinfer-ai\/flashinfer\/issues\/3170\" rel=\"noopener noreferrer nofollow\">flashinfer #3170 \u2014 DGX Spark SM_121 Audit<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/AEON-7\/Qwen3.6-NVFP4-DFlash\" rel=\"noopener noreferrer nofollow\">AEON-7\/Qwen3.6-NVFP4-DFlash<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/z-lab\/dflash\" rel=\"noopener noreferrer nofollow\">z-lab DFlash project (GitHub)<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/z-lab.ai\/projects\/dflash\/\" rel=\"noopener noreferrer nofollow\">z-lab DFlash paper page<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/arxiv.org\/abs\/2602.06036\" rel=\"noopener noreferrer nofollow\">arXiv 2602.06036 \u2014 DFlash: Block Diffusion for Flash Speculative Decoding<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/stevescargall.com\/blog\/2026\/04\/vllm-recipe-redhatai\/qwen3.6-35b-a3b-nvfp4-on-dgx-spark\/\" rel=\"noopener noreferrer nofollow\">Steve Scargall NVFP4 recipe<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/ai-muninn.com\/en\/blog\/dgx-spark-gemma4-mtp-108-toks\" rel=\"noopener noreferrer nofollow\">ai-muninn Gemma 4 + MTP recipe<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/www.lmsys.org\/blog\/2025-10-13-nvidia-dgx-spark\/\" rel=\"noopener noreferrer nofollow\">LMSYS DGX Spark in-depth review<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/forums.developer.nvidia.com\/t\/driver-590-48-01-regression-uma-memory-not-released-after-cuda-process-exit-works-on-580-126-09\/359969\" rel=\"noopener noreferrer nofollow\">NVIDIA forum #359969 \u2014 UMA leak in 590.x<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/forums.developer.nvidia.com\/t\/crashes-on-first-inference-after-loading-in-latest-vllm\/360181\" rel=\"noopener noreferrer nofollow\">NVIDIA forum #360181 \u2014 vLLM 0.15+ CUDAGraph FULL mode hang<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/forums.developer.nvidia.com\/t\/tensorrt-llm-1-3-0rc5\/366006\" rel=\"noopener noreferrer nofollow\">NVIDIA forum #366006 \u2014 TRT-LLM PTXAS workaround<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/vllm-project\/vllm\/issues\/36331\" rel=\"noopener noreferrer nofollow\">vLLM #36331 \u2014 MTP 0% acceptance at N=4<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/vllm-project\/vllm\/issues\/36821\" rel=\"noopener noreferrer nofollow\">vLLM #36821 \u2014 No sm_121 support on aarch64<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/NVIDIA\/cutlass\/issues\/3096\" rel=\"noopener noreferrer nofollow\">Cutlass #3096 \u2014 SM120 NVFP4 MoE garbage output<\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/github.com\/triton-lang\/triton\/issues\/8539\" rel=\"noopener noreferrer nofollow\">Triton #8539 \u2014 sm_121a not defined for option gpu-name<\/a><\/p>\n<\/li>\n<\/ul>\n<p><em>\u041f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0435 \u0447\u0430\u0441\u0442\u0438 \u0441\u0435\u0440\u0438\u0438:<\/em><\/p>\n<ul>\n<li>\n<p><a href=\"https:\/\/habr.com\/ru\/articles\/1030802\/\" rel=\"noopener noreferrer nofollow\"><em>\u0427\u0430\u0441\u0442\u044c 1. \u042f \u0441\u043e\u0431\u0440\u0430\u043b \u043d\u0430 DGX Spark \u043f\u0440\u0438\u0432\u0430\u0442\u043d\u044b\u0439 AI-\u0441\u0435\u0440\u0432\u0435\u0440<\/em><\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/habr.com\/ru\/articles\/1031904\/\" rel=\"noopener noreferrer nofollow\"><em>\u0427\u0430\u0441\u0442\u044c 2. \u041c\u043e\u043d\u0438\u0442\u043e\u0440\u0438\u043d\u0433 \u0435\u0434\u0438\u043d\u043e\u0439 \u043f\u0430\u043c\u044f\u0442\u0438, \u043a\u043e\u0433\u0434\u0430 NVML \u0438 dcgm-exporter \u043c\u043e\u043b\u0447\u0430\u0442<\/em><\/a><\/p>\n<\/li>\n<li>\n<p><a href=\"https:\/\/habr.com\/ru\/articles\/1032610\/\" rel=\"noopener noreferrer nofollow\"><em>\u0427\u0430\u0441\u0442\u044c 3. \u041a\u0438\u0440\u0438\u043b\u043b\u0438\u0446\u0430 \u0432 LLM: \u043f\u043e\u0447\u0435\u043c\u0443 \u0440\u0443\u0441\u0441\u043a\u0438\u0439 \u044f\u0437\u044b\u043a \u0432 \u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u044f\u0445 \u0441\u0442\u043e\u0438\u0442 \u0434\u043e\u0440\u043e\u0436\u0435<\/em><\/a><\/p>\n<\/li>\n<\/ul>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1033342\/\">https:\/\/habr.com\/ru\/articles\/1033342\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>NVIDIA \u043f\u0440\u043e\u0434\u0430\u0451\u0442 \u0441\u043f\u0430\u0440\u043a\u0443 \u0441\u00a0\u043b\u043e\u0437\u0443\u043d\u0433\u043e\u043c \u00ab\u043e\u0434\u0438\u043d \u043f\u0435\u0442\u0430\u0444\u043b\u043e\u043f \u043d\u0430\u00a0FP4\u00bb. \u042f \u043a\u0443\u043f\u0438\u043b \u043a\u043e\u0440\u043e\u0431\u043a\u0443, \u043f\u043e\u0441\u0442\u0430\u0432\u0438\u043b vLLM, \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u043b \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 \u0438 \u043f\u043e\u043b\u0443\u0447\u0438\u043b 40\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443 \u043d\u0430 35B MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0438. \u041f\u043e\u0441\u043b\u0435 \u043c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433\u043e\u0432\u044b\u0445 \u0441\u043b\u0430\u0439\u0434\u043e\u0432 \u0446\u0438\u0444\u0440\u0430 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0433\u0440\u0443\u0441\u0442\u043d\u043e.\u041e\u0431\u044a\u044f\u0441\u043d\u0435\u043d\u0438\u0435 \u043f\u0440\u043e\u0441\u0442\u043e\u0435. NVFP4\u00a0\u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435 vLLM \u0438 FlashInfer \u0444\u0438\u0437\u0438\u0447\u0435\u0441\u043a\u0438 \u0441\u043b\u043e\u043c\u0430\u043d \u043d\u0430\u00a0SM_121\u00a0\u2014 \u0432\u0430\u0440\u0438\u0430\u043d\u0442\u0435 Blackwell, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d \u0432\u00a0GB10. \u042f\u0434\u0440\u0430 \u0441\u043e\u0431\u0440\u0430\u043d\u044b \u043f\u043e\u0434 compute_120f, \u0430\u00a0\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0435 NVFP4-\u0438\u043d\u0441\u0442\u0440\u0443\u043a\u0446\u0438\u0438 \u0435\u0441\u0442\u044c \u0442\u043e\u043b\u044c\u043a\u043e \u0432 compute_120a \u0438 compute_121a. \u041d\u0430\u00a0SM_121\u00a0\u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u043a\u0432\u0430\u043d\u0442\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u0432\u0435\u0441\u043e\u0432 \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u044b\u0435 \u0431\u0438\u0442\u043e\u0432\u044b\u0435 \u043c\u0430\u043d\u0438\u043f\u0443\u043b\u044f\u0446\u0438\u0438 \u0432\u00a0\u0448\u0435\u0439\u0434\u0435\u0440\u0435, \u0431\u0435\u0437\u00a0\u0443\u0447\u0430\u0441\u0442\u0438\u044f \u0442\u0435\u043d\u0437\u043e\u0440\u043d\u044b\u0445 \u044f\u0434\u0435\u0440.\u0421\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u043e \u0432\u044b\u0442\u0430\u0449\u0438\u043b\u043e \u0441\u0442\u0435\u043a \u0440\u0443\u043a\u0430\u043c\u0438: \u043d\u0430\u0448\u043b\u043e \u043e\u0431\u0445\u043e\u0434\u043d\u044b\u0435 \u043f\u0443\u0442\u0438, \u0441\u043e\u0431\u0440\u0430\u043b\u043e \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438. \u042f \u043f\u0440\u043e\u0433\u043d\u0430\u043b \u043d\u0430\u00a0\u0441\u0432\u043e\u0451\u043c Spark \u0448\u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0445 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439 vLLM\u00a0\u2014 \u043e\u0442\u00a0\u0441\u0442\u043e\u043a\u043e\u0432\u043e\u0433\u043e BF16\u00a0\u0434\u043e\u00a0\u0444\u043e\u0440\u043a\u0430 \u0441\u00a0DFlash speculative decoding\u00a0\u2014 \u0438 \u0437\u0430\u043c\u0435\u0440\u0438\u043b \u043a\u0430\u0436\u0434\u0443\u044e \u043e\u0434\u0438\u043d\u0430\u043a\u043e\u0432\u044b\u043c \u0442\u0435\u0441\u0442\u043e\u043c. \u0412\u00a0\u044d\u0442\u043e\u0439 \u0441\u0442\u0430\u0442\u044c\u0435 \u0440\u0430\u0437\u0431\u0438\u0440\u0430\u044e, \u0447\u0442\u043e\u00a0\u0432\u00a0\u0438\u0442\u043e\u0433\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0438 \u0447\u0442\u043e\u00a0\u0432\u044b\u0431\u0438\u0440\u0430\u0442\u044c \u043f\u043e\u0434\u00a0\u0440\u0430\u0437\u043d\u044b\u0435 \u0437\u0430\u0434\u0430\u0447\u0438. \u0415\u0441\u043b\u0438 \u043a\u043e\u0440\u043e\u0442\u043a\u043e\u2014 GB10\u00a0\u2014 \u043d\u0435\u043e\u0434\u043d\u043e\u0437\u043d\u0430\u0447\u043d\u0430\u044f \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430. \u041d\u0430\u00a0\u043d\u0435\u0439 \u043a\u0440\u0443\u0442\u044f\u0442\u0441\u044f DGX Spark (NVIDIA reference), ASUS Ascent GX10, Lenovo ThinkStation PGX, HP ZGX Nano G1n, MSI EdgeXpert \u0438 \u0440\u0435\u0448\u0435\u043d\u0438\u044f \u043e\u0442\u00a0Dell, Acer \u0438 \u0434\u0440\u0443\u0433\u0438\u0445 OEM\u2011\u043f\u0430\u0440\u0442\u043d\u0451\u0440\u043e\u0432. \u041f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0432\u0441\u0451 \u044d\u0442\u043e \u043a\u0430\u043a \u00abAI workstation \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432\u00bb. \u041d\u043e\u00a0\u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0440\u0435\u0441\u0443\u0440\u0441\u044b NVIDIA\u00a0\u2014 \u0438\u043d\u0436\u0435\u043d\u0435\u0440\u044b, \u043e\u043f\u0442\u0438\u043c\u0438\u0437\u0430\u0446\u0438\u0438, \u0440\u0430\u043d\u043d\u0438\u0435 \u0441\u0431\u043e\u0440\u043a\u0438\u00a0\u2014 \u0438\u0434\u0443\u0442 \u0432\u00a0\u0434\u0430\u0442\u0430\u0446\u0435\u043d\u0442\u0440\u043e\u0432\u044b\u0435 B100\/B200\/B300\u00a0\u0438 Hopper. SM_121\u00a0\u0432\u00a0\u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u0435 open\u2011source \u044f\u0434\u0435\u0440 (FlashInfer, CUTLASS, TensorRT\u2011LLM)\u00a0\u043b\u0438\u0431\u043e \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442\u0441\u044f,\u00a0\u043b\u0438\u0431\u043e \u0442\u0440\u0435\u0431\u0443\u0435\u0442 \u043e\u0431\u0445\u043e\u0434\u043d\u044b\u0445 \u043f\u0443\u0442\u0435\u0439. \u041f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0438 \u043e\u0442\u00a0NVIDIA \u043d\u0430\u00a0\u0444\u043e\u0440\u0443\u043c\u0430\u0445 \u043c\u0430\u043b\u043e, ETA \u0444\u0438\u043a\u0441\u043e\u0432 \u0447\u0430\u0449\u0435 \u0432\u0441\u0435\u0433\u043e \u043d\u0435\u0442. \u2014 \u041d\u0430\u00a0\u043c\u043e\u0434\u0435\u043b\u044f\u0445 \u043a\u043b\u0430\u0441\u0441\u0430 35B \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 DGX Spark \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0443\u044e \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c \u043f\u0430\u043c\u044f\u0442\u0438. \u0423\u00a0\u043d\u0435\u0433\u043e 273\u00a0GB\/s LPDDR5x \u043f\u0440\u043e\u0442\u0438\u0432 3.4\u00a0TB\/s HBM3\u00a0\u0443\u00a0H100. \u0412\u00a0\u0434\u0432\u0435\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u0440\u0430\u0437 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435, \u0438 \u0438\u043d\u0444\u0435\u0440\u0435\u043d\u0441 LLM \u044d\u0442\u0443 \u0440\u0430\u0437\u043d\u0438\u0446\u0443 \u0447\u0435\u0441\u0442\u043d\u043e \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442.\u2014 NVFP4\u00a0\u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435 vLLM \u0438 FlashInfer \u043d\u0430\u00a0SM_121\u00a0\u043d\u0435\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u0430\u043a\u00a0\u0434\u043e\u043b\u0436\u0435\u043d. Issue flashinfer #3170 \u043d\u0430\u00a0\u043c\u043e\u043c\u0435\u043d\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u0438\u044f \u0441\u0442\u0430\u0442\u044c\u0438 \u043e\u0442\u043a\u0440\u044b\u0442, \u0432\u00a0\u043d\u0451\u043c 17\u00a0\u043f\u0443\u043d\u043a\u0442\u043e\u0432, \u043f\u0440\u043e\u0433\u0440\u0435\u0441\u0441 \u043f\u043e\u00a0\u0441\u0435\u043c\u0438 \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u043c \u044f \u043d\u0435\u00a0\u0441\u043c\u043e\u0433 \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0434\u0438\u0442\u044c \u043a\u0430\u043a\u00a0\u0437\u0430\u043a\u0440\u044b\u0442\u044b\u0439.\u2014 \u0421\u0442\u043e\u043a\u043e\u0432\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f \u0432\u044b\u0434\u0430\u0451\u0442 40\u201354\u00a0\u0442\u043e\u043a\u0435\u043d\u0430 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443 \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u043c \u043f\u043e\u0442\u043e\u043a\u0435. \u041c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433 \u00ab1\u00a0PFLOPS\u00bb \u043d\u0430\u00a0\u044d\u0442\u043e\u043c \u0444\u043e\u043d\u0435 \u0432\u044b\u0433\u043b\u044f\u0434\u0438\u0442 \u0435\u0445\u0438\u0434\u043d\u043e. \u041d\u0435\u00a0\u043f\u0435\u0440\u0432\u044b\u0439 \u0440\u0430\u0437 \u043b\u043e\u0432\u043b\u044e \u0441\u0435\u0431\u044f \u043d\u0430\u00a0\u0437\u043d\u0430\u043c\u0435\u043d\u0438\u0442\u043e\u0439 \u0440\u0435\u0430\u043a\u0446\u0438\u0438 \u0422\u043e\u0440\u0432\u0430\u043b\u044c\u0434\u0441\u0430 \u0432\u00a0\u0430\u0434\u0440\u0435\u0441 NVIDIA. \u2014 \u041a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f AEON-7\u00a0\u0441\u00a0DFlash \u043f\u0440\u043e\u0431\u0438\u0432\u0430\u0435\u0442 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u0434\u043e 70\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0440\u0435\u0434\u043d\u0435\u043c \u0438 107\u00a0\u043d\u0430\u00a0\u043f\u0438\u043a\u0435. \u042d\u0442\u043e \u0444\u043e\u0440\u043a vLLM \u0438\u0437\u00a0\u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432 \u0441\u00a0\u0441\u0435\u043c\u044c\u044e \u043f\u0430\u0442\u0447\u0430\u043c\u0438 \u0438 drafter \u0438\u0437\u00a0z\u2011lab. \u0412\u0430\u0436\u043d\u0430\u044f \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430: \u0447\u0435\u043a\u043f\u043e\u0439\u043d\u0442 heretic\u00a0\u2014 abliterated (\u0431\u0435\u0437 safety filtering), \u0438 \u043d\u0430\u00a0\u043d\u0451\u043c \u0441\u043b\u043e\u043c\u0430\u043d function calling. \u0414\u043b\u044f\u00a0\u043e\u0431\u044b\u0447\u043d\u043e\u0433\u043e \u0447\u0430\u0442\u0430 \u0438 RAG \u044d\u0442\u043e \u043d\u0435\u00a0\u043c\u0435\u0448\u0430\u0435\u0442, \u0434\u043b\u044f\u00a0Dify\u2011\u0430\u0433\u0435\u043d\u0442\u043e\u0432 \u0438 MCP\u00a0\u2014 \u0441\u0442\u043e\u043f\u2011\u0444\u0430\u043a\u0442\u043e\u0440, \u0442\u043e\u0433\u0434\u0430 \u043d\u0443\u0436\u0435\u043d \u0447\u0438\u0441\u0442\u044b\u0439 Qwen3.6-FP8.\u2014 \u041a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 260K \u043d\u0430\u00a0\u0441\u043a\u043e\u0440\u043e\u0441\u0442\u044c \u043f\u043e\u0447\u0442\u0438 \u043d\u0435\u00a0\u0432\u043b\u0438\u044f\u0435\u0442. KV\u2011cache \u0438 \u0440\u0430\u0441\u043a\u043b\u0430\u0434\u043a\u0430 \u043f\u0430\u043c\u044f\u0442\u0438 \u043d\u0435\u00a0\u0443\u043f\u0438\u0440\u0430\u044e\u0442\u0441\u044f \u0432\u00a0\u043f\u043e\u0442\u043e\u043b\u043e\u043a.\u2014 MoE \u043e\u0431\u044b\u0433\u0440\u044b\u0432\u0430\u0435\u0442 \u043f\u043b\u043e\u0442\u043d\u044b\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0430\u00a0\u0434\u0430\u043d\u043d\u043e\u043c\u00a0\u0436\u0435\u043b\u0435\u0437\u0435. \u041d\u0430\u00a0bandwidth\u2011bound GB10\u00a0\u0432\u0430\u0436\u043d\u044b \u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0435 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u044b, \u0430\u00a0\u043d\u0435\u00a0\u043e\u0431\u0449\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440.\u2014 \u0414\u0440\u0430\u0439\u0432\u0435\u0440 \u0437\u0430\u043b\u043e\u0447\u0435\u043d \u043d\u0430 580.x. \u041d\u0430 590+ \u0435\u0441\u0442\u044c \u0434\u0432\u0435 \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0445 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u0411\u0435\u0437\u00a0\u043e\u0431\u043d\u043e\u0432\u043b\u0435\u043d\u0438\u0439 \u043c\u043e\u0436\u043d\u043e \u0436\u0438\u0442\u044c \u0434\u043e\u043b\u0433\u043e \u0438 \u0441\u0447\u0430\u0441\u0442\u043b\u0438\u0432\u043e.\u2014 vLLM 0.15+ \u043d\u0430\u00a0PyTorch 2.10\u00a0\u0438\u043c\u0435\u0435\u0442 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u0443\u044e \u043f\u0440\u043e\u0431\u043b\u0435\u043c\u0443 \u0441\u00a0FULL CUDA graph capture mode\u00a0\u2014 \u043b\u0435\u0447\u0438\u0442\u0441\u044f cudagraph_mode=piecewise \u0438\u043b\u0438\u00a0\u0441\u0431\u043e\u0440\u043a\u043e\u0439 \u0438\u0437\u00a0\u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432. \u042d\u0442\u043e \u043d\u0435\u00a0\u043f\u0440\u043e\u00a0\u0434\u0440\u0430\u0439\u0432\u0435\u0440.\u2014 \u0415\u0441\u043b\u0438 \u0432\u044b \u043f\u043e\u043a\u0443\u043f\u0430\u043b\u0438 DGX Spark \u043f\u043e\u0434\u00a0\u043c\u0430\u0440\u043a\u0435\u0442\u0438\u043d\u0433\u043e\u0432\u044b\u0439 \u00ab\u043e\u0434\u0438\u043d \u043f\u0435\u0442\u0430\u0444\u043b\u043e\u043f \u043d\u0430\u00a0FP4\u00bb\u00a0\u2014 \u0437\u0430\u0431\u0443\u0434\u044c\u0442\u0435 \u0441\u043b\u0430\u0439\u0434\u044b. \u041d\u0430 35B\u2011\u043c\u043e\u0434\u0435\u043b\u044f\u0445 \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0446\u0438\u0444\u0440\u044b \u0441\u043a\u0440\u043e\u043c\u043d\u0435\u0435. \u041f\u043e\u0434\u00a0\u043a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0441\u0435\u0440\u0432\u0438\u043d\u0433 \u0438 \u043f\u0440\u043e\u0434\u0430\u043a\u0448\u043d \u0441\u00a0function calling\u00a0\u2014 Qwen3.6-FP8\u00a0\u043d\u0430\u00a0\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u043e\u0439 vLLM. \u041f\u043e\u0434\u00a0\u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u0441\u043a\u043e\u0440\u043e\u0441\u0442\u0438 \u0432\u00a0\u0447\u0430\u0442\u0435 \u0438 RAG (\u0431\u0435\u0437 tool calling)\u00a0\u2014 community\u2011\u0444\u043e\u0440\u043a AEON-7\u00a0\u0441\u00a0DFlash. \u041a\u043e\u043d\u043a\u0440\u0435\u0442\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0438 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u043f\u0443\u0442\u0438\u00a0\u2014 \u043d\u0438\u0436\u0435. \u0417\u0430\u0447\u0435\u043c \u044d\u0442\u043e \u0432\u043e\u043e\u0431\u0449\u0435 \u043f\u043e\u043d\u0430\u0434\u043e\u0431\u0438\u043b\u043e\u0441\u044c  \u0412 \u043c\u043e\u0451\u043c \u043f\u0440\u043e\u0435\u043a\u0442\u0435 \u0432\u0441\u0442\u0430\u043b \u0432\u043e\u043f\u0440\u043e\u0441: \u043a\u0430\u043a\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f vLLM \u0432\u044b\u0436\u0438\u043c\u0430\u0435\u0442 \u043c\u0430\u043a\u0441\u0438\u043c\u0443\u043c \u043d\u0430 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043d\u043e\u043c \u043e\u043a\u043d\u0435 256K. \u0414\u043b\u0438\u043d\u043d\u044b\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u043d\u0443\u0436\u0435\u043d \u0434\u043b\u044f \u0441\u0435\u0440\u044c\u0451\u0437\u043d\u044b\u0445 \u0432\u0435\u0449\u0435\u0439.\u042e\u0440\u0438\u0434\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0434\u043e\u0433\u043e\u0432\u043e\u0440\u044b \u0446\u0435\u043b\u0438\u043a\u043e\u043c \u0432 \u0432\u0432\u043e\u0434, \u0431\u0435\u0437 RAG. \u0414\u043e\u0433\u043e\u0432\u043e\u0440 \u043f\u043e\u0441\u0442\u0430\u0432\u043a\u0438 \u043d\u0430 \u0441\u043e\u0440\u043e\u043a \u0441\u0442\u0440\u0430\u043d\u0438\u0446 \u0441 \u043c\u043d\u043e\u0433\u043e\u0443\u0440\u043e\u0432\u043d\u0435\u0432\u043e\u0439 \u043d\u0443\u043c\u0435\u0440\u0430\u0446\u0438\u0435\u0439 \u2014 \u044d\u0442\u043e \u043e\u043a\u043e\u043b\u043e \u043f\u044f\u0442\u0438\u0434\u0435\u0441\u044f\u0442\u0438 \u0442\u044b\u0441\u044f\u0447 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c. \u0420\u0435\u0437\u0430\u0442\u044c \u0435\u0433\u043e \u043d\u0430 \u0447\u0430\u043d\u043a\u0438 \u0447\u0430\u0441\u0442\u043e \u0445\u0443\u0436\u0435, \u0447\u0435\u043c \u043e\u0442\u0434\u0430\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u0438 \u0446\u0435\u043b\u0438\u043a\u043e\u043c. \u0410\u043d\u0430\u043b\u0438\u0437 \u043a\u043e\u0434\u043e\u0432\u043e\u0439 \u0431\u0430\u0437\u044b \u0437\u0430 \u043e\u0434\u0438\u043d \u043f\u0440\u043e\u0445\u043e\u0434 \u2014 \u0441\u0440\u0435\u0434\u043d\u0438\u0439 \u043c\u0438\u043a\u0440\u043e\u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0430 \u043f\u044f\u0442\u044c\u0434\u0435\u0441\u044f\u0442-\u0441\u0442\u043e \u0444\u0430\u0439\u043b\u043e\u0432 \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0432 \u0434\u0432\u0435\u0441\u0442\u0438 \u0442\u044b\u0441\u044f\u0447 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0441 \u043c\u0435\u0442\u0430\u0434\u0430\u043d\u043d\u044b\u043c\u0438. \u041c\u043d\u043e\u0433\u043e\u0448\u0430\u0433\u043e\u0432\u044b\u0435 \u0430\u0433\u0435\u043d\u0442\u0441\u043a\u0438\u0435 \u0441\u0446\u0435\u043d\u0430\u0440\u0438\u0438: \u0438\u0441\u0442\u043e\u0440\u0438\u044f \u0440\u0430\u0437\u0433\u043e\u0432\u043e\u0440\u0430 \u0440\u0430\u0441\u0442\u0451\u0442, \u0430\u0433\u0435\u043d\u0442 \u0434\u0435\u0440\u0436\u0438\u0442 \u0432 \u0433\u043e\u043b\u043e\u0432\u0435 \u043f\u0440\u0435\u0434\u044b\u0434\u0443\u0449\u0438\u0435 \u0448\u0430\u0433\u0438, \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u044b, \u043f\u0440\u043e\u043c\u0435\u0436\u0443\u0442\u043e\u0447\u043d\u044b\u0435 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442\u044b. \u041d\u0430 \u0434\u0432\u0430\u0434\u0446\u0430\u0442\u0438-\u0442\u0440\u0438\u0434\u0446\u0430\u0442\u0438 \u0448\u0430\u0433\u0430\u0445 \u043b\u0435\u0433\u043a\u043e \u0443\u0445\u043e\u0434\u0438\u0442 \u0437\u0430 \u0441\u0442\u043e \u0442\u044b\u0441\u044f\u0447. \u0422\u0435\u0445\u043d\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u044f \u0432 \u043e\u0434\u043d\u043e\u043c \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u2014 Confluence-\u0432\u044b\u0433\u0440\u0443\u0437\u043a\u0430 \u0441 \u043f\u0440\u0438\u043a\u0440\u0435\u043f\u043b\u0451\u043d\u043d\u044b\u043c\u0438 \u0444\u0430\u0439\u043b\u0430\u043c\u0438 \u0438\u043b\u0438 \u0440\u0435\u0433\u043b\u0430\u043c\u0435\u043d\u0442 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u0438 \u0441\u043e \u0432\u0441\u0435\u043c\u0438 \u043f\u0440\u0438\u043b\u043e\u0436\u0435\u043d\u0438\u044f\u043c\u0438.\u0421\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0441\u0431\u043e\u0440\u043a\u0430 AGmind \u043a\u0440\u0443\u0442\u0438\u043b\u0430 Gemma 4 26B-A4B-it \u0432 BF16 \u043d\u0430 64K. \u041a\u043e\u0433\u0434\u0430 \u043a\u043b\u0438\u0435\u043d\u0442 \u0437\u0430\u0445\u043e\u0442\u0435\u043b 256K, \u044f \u043f\u043e\u0448\u0451\u043b \u0432 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u044b. NVFP4 \u2014 \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u044f, \u0432 \u0434\u0432\u0430 \u0440\u0430\u0437\u0430 \u043c\u0435\u043d\u044c\u0448\u0435 \u043f\u0430\u043c\u044f\u0442\u0438. MTP \u2014 speculative decoding. DFlash \u2014 block-diffusion drafter. \u0424\u043e\u0440\u043a\u0438 \u0441\u043e\u043e\u0431\u0449\u0435\u0441\u0442\u0432\u0430. \u041f\u043e\u043b\u0443\u0447\u0438\u043b\u043e\u0441\u044c \u0448\u0435\u0441\u0442\u044c \u0440\u0430\u0437\u043d\u044b\u0445 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439, \u043a\u0430\u0436\u0434\u0443\u044e \u043f\u0440\u043e\u0433\u043d\u0430\u043b \u043e\u0434\u043d\u0438\u043c \u0438 \u0442\u0435\u043c \u0436\u0435 \u0442\u0435\u0441\u0442\u043e\u043c.\u0416\u0435\u043b\u0435\u0437\u043eNVIDIA DGX Spark\u251c\u2500\u2500 GPU:        GB10 (Blackwell SM_121)\u251c\u2500\u2500 \u041f\u0430\u043c\u044f\u0442\u044c:     128 GiB \u0435\u0434\u0438\u043d\u0430\u044f (LPDDR5x)\u251c\u2500\u2500 Bandwidth:  273 GB\/s\u251c\u2500\u2500 \u0414\u0440\u0430\u0439\u0432\u0435\u0440:    580.142 (NVIDIA \u043d\u0435 \u0441\u0435\u0440\u0442\u0438\u0444\u0438\u0446\u0438\u0440\u0443\u0435\u0442 \u0431\u043e\u043b\u0435\u0435 \u043d\u043e\u0432\u044b\u0435 \u043d\u0430 Spark)\u251c\u2500\u2500 CUDA:       13.0\u251c\u2500\u2500 \u041e\u0421:         DGX OS 7.5.0 (aarch64, Ubuntu 24.04)\u2514\u2500\u2500 \u041a\u043b\u0430\u0441\u0442\u0435\u0440:    2 \u043d\u043e\u0434\u044b \u0447\u0435\u0440\u0435\u0437 QSFP 200GSpark \u043f\u043e\u0437\u0438\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043a\u0430\u043a\u00a0\u0440\u0430\u0431\u043e\u0447\u0430\u044f \u0441\u0442\u0430\u043d\u0446\u0438\u044f \u0434\u043b\u044f\u00a0\u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 AI. \u0413\u043b\u0430\u0432\u043d\u043e\u0435\u00a0\u2014 \u0435\u0434\u0438\u043d\u0430\u044f \u043f\u0430\u043c\u044f\u0442\u044c. \u041c\u043e\u0434\u0435\u043b\u044c \u0432\u0438\u0434\u0438\u0442 CPU \u0438 GPU \u043a\u0430\u043a\u00a0\u043e\u0434\u0438\u043d \u043f\u0443\u043b \u043d\u0430 128\u00a0GiB, \u0445\u043e\u0434\u0438\u0442\u044c \u0447\u0435\u0440\u0435\u0437 PCIe \u043d\u0435\u00a0\u043d\u0430\u0434\u043e.\u041c\u0438\u043d\u0443\u0441\u043e\u0432 \u0443\u00a0\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u044b \u0442\u0440\u0438. \u0413\u043b\u0430\u0432\u043d\u044b\u0439\u00a0\u2014 bandwidth: 273\u00a0GB\/s \u043f\u0440\u043e\u0442\u0438\u0432 3.4\u00a0TB\/s \u0443\u00a0H100\u00a0HBM3, \u0432\u00a0\u0434\u0432\u0435\u043d\u0430\u0434\u0446\u0430\u0442\u044c \u0440\u0430\u0437 \u043c\u0435\u043d\u044c\u0448\u0435. \u0414\u0435\u043a\u043e\u0434 LLM \u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0438\u043c\u0435\u043d\u043d\u043e \u0432\u00a0\u044d\u0442\u043e. \u041d\u0430\u00a0MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0438 \u0441\u00a0\u0442\u0440\u0435\u043c\u044f \u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u0430\u043c\u0438 \u0430\u043a\u0442\u0438\u0432\u043d\u044b\u0445 \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 \u0442\u0435\u043e\u0440\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u043f\u0440\u0438\u00a0NVFP4\u00a0\u2014 \u043e\u043a\u043e\u043b\u043e 180\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u0432\u00a0\u0441\u0435\u043a\u0443\u043d\u0434\u0443. \u041d\u0430\u00a0H100\u00a0\u0432\u00a0FP8\u00a0\u043d\u0430\u00a0\u0442\u043e\u0439\u00a0\u0436\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u0431\u043e\u043b\u0435\u0435 \u0442\u044b\u0441\u044f\u0447\u0438; \u043d\u0430\u00a0\u0434\u0430\u0442\u0430\u0446\u0435\u043d\u0442\u0440\u043e\u0432\u044b\u0445 Blackwell B200\u00a0\u0432\u00a0NVFP4\u00a0\u2014 \u0437\u0430\u00a0\u043f\u044f\u0442\u044c \u0442\u044b\u0441\u044f\u0447.\u0414\u0430\u043b\u044c\u0448\u0435\u00a0\u2014 \u0434\u0440\u0430\u0439\u0432\u0435\u0440 \u0437\u0430\u043b\u043e\u0447\u0435\u043d \u043d\u0430 580.x. \u041d\u0430 590\u00a0\u0438 \u0432\u044b\u0448\u0435 \u0435\u0441\u0442\u044c \u043a\u0440\u0438\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0435 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438. \u041f\u043e\u0434\u0440\u043e\u0431\u043d\u043e\u0441\u0442\u0438\u00a0\u0431\u044b\u043b\u0438 \u0432\u043e\u00a0\u0432\u0442\u043e\u0440\u043e\u0439 \u0447\u0430\u0441\u0442\u0438 \u0441\u0435\u0440\u0438\u0438.\u0418 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u043e\u00a0\u2014 SM_121\u00a0\u044d\u0442\u043e \u0443\u0437\u043a\u0430\u044f \u0440\u0430\u0437\u043d\u043e\u0432\u0438\u0434\u043d\u043e\u0441\u0442\u044c Blackwell, \u043d\u0430\u00a0\u043a\u043e\u0442\u043e\u0440\u043e\u0439 \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0442\u043e\u043b\u044c\u043a\u043e GB10. \u041f\u043e\u0434\u00a0\u043c\u0430\u0441\u0441\u043e\u0432\u044b\u0439 SM_120 \u044d\u043a\u043e\u0441\u0438\u0441\u0442\u0435\u043c\u0430 \u0442\u0435\u0441\u0442\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u0438 \u0441\u043e\u0431\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u043e\u0441\u043d\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u043e. \u041f\u043e\u0434\u00a0SM_121\u00a0\u044f\u0434\u0440\u0430\u00a0\u043b\u0438\u0431\u043e \u043e\u0442\u0441\u0443\u0442\u0441\u0442\u0432\u0443\u044e\u0442,\u00a0\u043b\u0438\u0431\u043e \u0441\u043e\u0431\u0440\u0430\u043d\u044b \u0432\u0442\u043e\u0440\u044b\u043c \u043f\u0440\u0438\u043e\u0440\u0438\u0442\u0435\u0442\u043e\u043c. \u0417\u043e\u043e\u043f\u0430\u0440\u043a attention-\u0434\u0432\u0438\u0436\u043a\u043e\u0432  \u0412\u00a0vLLM \u0442\u0440\u0438 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0445 \u0434\u0432\u0438\u0436\u043a\u0430 \u0434\u043b\u044f\u00a0\u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, \u0438 \u043a\u0430\u0436\u0434\u044b\u0439 \u0432\u0435\u0434\u0451\u0442 \u0441\u0435\u0431\u044f \u043f\u043e\u2011\u0441\u0432\u043e\u0435\u043c\u0443.\u0414\u0432\u0438\u0436\u043e\u043a\u041e\u043f\u0438\u0441\u0430\u043d\u0438\u0435\u0427\u0442\u043e\u00a0\u043d\u0430 GB10FlashInferNVIDIA\u2011\u0441\u043f\u0435\u0446\u0438\u0444\u0438\u0447\u043d\u044b\u0439 CUDA, \u0441\u0430\u043c\u044b\u0439\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043d\u0430\u00a0\u043c\u0430\u0441\u0441\u043e\u0432\u043e\u043c BlackwellFP8-attention \u0441\u043b\u043e\u043c\u0430\u043d: kernel only supports sm120 + illegal synchronization operationsCUTLASS \/ FA3\u0410\u043b\u044c\u0442\u0435\u0440\u043d\u0430\u0442\u0438\u0432\u043d\u044b\u0439\u00a0\u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u043f\u0443\u0442\u044c, \u0435\u0441\u0442\u044c \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0430 NVFP4\u0427\u0430\u0441\u0442\u0438\u0447\u043d\u043e. heuristic_func_mm_fp4 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 minor == 0, \u0447\u0442\u043e\u00a0\u043e\u0442\u0440\u0435\u0437\u0430\u0435\u0442 GB10. NVFP4\u00a0KV\u2011decode \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043d\u0435\u00a0\u0441\u043e\u0431\u0440\u0430\u043d, \u0432\u00a0JIT \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e \u043f\u0440\u0438\u00a0\u043f\u0435\u0440\u0432\u043e\u043c \u0437\u0430\u043f\u0443\u0441\u043a\u0435TRITON_ATTNOpenAI Triton, \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u0435\u0442\u0441\u044f JIT \u043f\u043e\u0434\u00a0GPU\u0420\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u0432\u0435\u0437\u0434\u0435, \u043d\u0430 10\u201330% \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435 FlashInfer, \u043d\u043e\u00a0\u043d\u0435\u00a0\u043f\u0430\u0434\u0430\u0435\u0442TRITON_ATTN\u00a0\u2014 \u0434\u0435\u2011\u0444\u0430\u043a\u0442\u043e \u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442. \u0423\u00a0\u043c\u0435\u043d\u044f \u0432\u00a0\u043f\u0440\u043e\u0435\u043a\u0442\u0435 \u0437\u0430\u043a\u0440\u0435\u043f\u043b\u0435\u043d\u043e \u043f\u0440\u0430\u0432\u0438\u043b\u043e: \u0432\u0441\u0435 FP8-\u043d\u0430\u0433\u0440\u0443\u0437\u043a\u0438 \u0438\u0434\u0443\u0442 \u0447\u0435\u0440\u0435\u0437 VLLM_ATTENTION_BACKEND=TRITON_ATTN, \u0435\u0441\u043b\u0438 \u0438\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u0442\u0441\u044f FlashInfer FP8.\u0422\u0440\u0438\u0433\u0433\u0435\u0440\u044b \u0434\u043b\u044f\u00a0\u043f\u0435\u0440\u0435\u0445\u043e\u0434\u0430: \u043e\u0448\u0438\u0431\u043a\u0430 kernel only supports sm120 \u0432\u00a0\u043b\u043e\u0433\u0430\u0445, \u043a\u0440\u0430\u0448\u0438 illegal synchronization operations, \u0430\u043f\u0433\u0440\u0435\u0439\u0434 vLLM \u0441\u00a0\u043f\u0435\u0440\u0435\u0441\u0431\u043e\u0440\u043a\u043e\u0439 FlashInfer (\u0441\u0442\u0430\u0440\u0430\u044f \u0432\u0435\u0440\u0441\u0438\u044f \u0440\u0430\u0431\u043e\u0442\u0430\u043b\u0430, \u043d\u043e\u0432\u0430\u044f \u043d\u0435\u0442).\u0412\u00a0\u043c\u043e\u0451\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0435 AEON-7\u00a0\u0443\u0436\u0435 \u0441\u043e\u0431\u0440\u0430\u043d \u0441\u00a0flash_attn (\u0431\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430 FlashAttention \u043e\u0442\u00a0Tri Dao, \u043d\u0435\u00a0Triton). \u041d\u0430\u00a0GB10\u00a0\u043e\u043d\u0430 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 AEON-7\u00a0\u043d\u0435\u00a0\u0443\u043f\u0438\u0440\u0430\u0435\u0442\u0441\u044f \u0432\u00a0\u043f\u0440\u043e\u0431\u043b\u0435\u043c\u044b FlashInfer.\u0411\u044d\u043a\u0435\u043d\u0434 \u0434\u043b\u044f MoE  \u0414\u043b\u044f\u00a0MoE\u2011\u043c\u043e\u0434\u0435\u043b\u0435\u0439 (Qwen3.6, Mixtral, GLM) \u0435\u0441\u0442\u044c \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 \u0432\u044b\u0431\u043e\u0440:bashVLLM_USE_FLASHINFER_MOE_FP8=1   # FP8 MoE \u2014 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 SM_121 \u0441 flashinfer 0.6.xVLLM_USE_FLASHINFER_MOE_FP4=0   # NVFP4 MoE \u2014 \u0434\u0435\u0441\u044f\u0442\u044c \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0439 \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044fVLLM_NVFP4_GEMM_BACKEND=marlin  # \u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u043d\u0430 \u044f\u0434\u0440\u0435 Marlin INT4Marlin\u00a0\u2014 \u044d\u0442\u043e GEMM\u2011\u044f\u0434\u0440\u043e \u0434\u043b\u044f\u00a0INT4-\u0432\u0435\u0441\u043e\u0432 \u0441\u00a0FP16\/BF16-\u0430\u043a\u0442\u0438\u0432\u0430\u0446\u0438\u044f\u043c\u0438. \u041d\u0430\u00a0SM_121\u00a0\u043e\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e, \u043d\u043e\u00a0\u0432\u0435\u0441\u0430 \u0434\u043e\u043b\u0436\u043d\u044b\u00a0\u0431\u044b\u0442\u044c \u0437\u0430\u0440\u0430\u043d\u0435\u0435 \u043f\u0440\u043e\u043a\u0432\u0430\u043d\u0442\u0438\u0437\u043e\u0432\u0430\u043d\u044b \u0432\u00a0\u0444\u043e\u0440\u043c\u0430\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 Marlin \u043f\u043e\u043d\u0438\u043c\u0430\u0435\u0442. \u0418\u0441\u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u044c \u0435\u0433\u043e \u043a\u0430\u043a\u00a0\u0437\u0430\u043f\u0430\u0441\u043d\u043e\u0439 \u0432\u0430\u0440\u0438\u0430\u043d\u0442 \u0438\u043c\u0435\u0435\u0442 \u0441\u043c\u044b\u0441\u043b, \u0435\u0441\u043b\u0438 NVFP4-\u043f\u0443\u0442\u044c \u043d\u0435\u00a0\u0438\u0434\u0451\u0442.\u041f\u043e\u0447\u0435\u043c\u0443 \u0432\u0430\u0436\u043d\u043e \u041d\u0415\u00a0\u043e\u0431\u043d\u043e\u0432\u043b\u044f\u0442\u044c \u0434\u0440\u0430\u0439\u0432\u0435\u0440DGX OS 7.5.0\u00a0\u043f\u0438\u043d\u0430\u0435\u0442 580.142\u00a0\u043a\u0430\u043a\u00a0\u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0441\u0435\u0440\u0442\u0438\u0444\u0438\u0446\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0439 \u0434\u0440\u0430\u0439\u0432\u0435\u0440. \u041d\u0430\u00a0GB10\u00a0\u043d\u0430\u00a0\u0435\u0434\u0438\u043d\u043e\u0439 \u043f\u0430\u043c\u044f\u0442\u0438 \u0435\u0441\u0442\u044c \u0434\u0432\u0435 \u043d\u0435\u0437\u0430\u0432\u0438\u0441\u0438\u043c\u044b\u0435 \u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0438 \u0432 590+, \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043d\u0435\u0442 \u043d\u0430\u00a0\u0434\u0438\u0441\u043a\u0440\u0435\u0442\u043d\u043e\u0439 \u0432\u0438\u0434\u0435\u043e\u043f\u0430\u043c\u044f\u0442\u0438.\u041f\u0435\u0440\u0432\u0430\u044f\u00a0\u2014 \u0443\u0442\u0435\u0447\u043a\u0430 UMA \u0432 590.48.01. \u041f\u043e\u0441\u043b\u0435 \u0447\u0438\u0441\u0442\u043e\u0433\u043e \u0432\u044b\u0445\u043e\u0434\u0430 CUDA\u2011\u043f\u0440\u043e\u0446\u0435\u0441\u0441\u0430 \u043e\u043a\u043e\u043b\u043e 80  \u0438\u0437\u00a0128 GB \u00ab\u0441\u044a\u0435\u0434\u0435\u043d\u044b\u00bb, \u0438\u0445 \u043d\u0435\u00a0\u0432\u0438\u0434\u043d\u043e \u0432\u00a0AnonPages, Slab, PageTables. MemAvailable \u043f\u0430\u0434\u0430\u0435\u0442. \u041b\u0435\u0447\u0438\u0442\u0441\u044f echo 3 &gt; \/proc\/sys\/vm\/drop_caches \u0438\u043b\u0438\u00a0\u0432\u044b\u0433\u0440\u0443\u0437\u043a\u043e\u0439 \u043c\u043e\u0434\u0443\u043b\u044f nvidia. \u0422\u0440\u0435\u0434 \u0444\u043e\u0440\u0443\u043c\u0430 #359969\u00a0\u2014 NVIDIA \u043f\u043e\u0434\u0442\u0432\u0435\u0440\u0434\u0438\u043b\u0430 \u0431\u0430\u0433 \u0438 \u044f\u0432\u043d\u043e \u0441\u043a\u0430\u0437\u0430\u043b\u0430, \u0447\u0442\u043e\u00a0\u043d\u043e\u0432\u044b\u0435 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u044b \u043f\u043e\u0441\u043b\u0435 580.126.09\u00a0\u043d\u0430\u00a0Spark \u043f\u043e\u043a\u0430 \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044f.\u0412\u0442\u043e\u0440\u0430\u044f\u00a0\u2014 \u0431\u0430\u0433 TMA \u0432 595.58.03. cuTensorMapEncodeTiled \u043b\u043e\u0432\u0438\u0442 illegal memory access. \u0412\u0430\u043b\u0438\u0442 NVFP4\u00a0\u043d\u0430\u00a0Spark (vLLM #35519).\u041d\u0443\u0436\u043d\u043e \u0437\u0430\u0445\u043e\u043b\u0434\u0438\u0442\u044c \u0434\u0440\u0430\u0439\u0432\u0435\u0440:bashsudo apt-mark hold nvidia-driver-580-open\u0418\u043d\u0430\u0447\u0435 unattended\u2011upgrades \u043f\u043e\u0434\u0442\u044f\u043d\u0435\u0442 590+ \u0438 \u0441\u0442\u0435\u043a \u043f\u043e\u0441\u044b\u043f\u0435\u0442\u0441\u044f.\u0427\u0442\u043e\u00a0\u0432 \u0438\u0442\u043e\u0433\u0435 \u0441\u043b\u043e\u043c\u0430\u043d\u043e \u0432\u00a0\u043e\u0441\u043d\u043e\u0432\u043d\u043e\u0439 \u0432\u0435\u0442\u043a\u0435NVFP4\u00a0\u043e\u0442\u043a\u0430\u0442\u044b\u0432\u0430\u0435\u0442\u0441\u044f \u043d\u0430\u00a0\u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u043d\u0443\u044e \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0443, \u0432\u00a0\u0442\u0440\u0438 \u0440\u0430\u0437\u0430 \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u0435\u0435 \u043d\u0430\u0442\u0438\u0432\u043d\u043e\u0433\u043e. TensorRT\u2011LLM \u043d\u0430\u00a0Spark \u0442\u0440\u0435\u0431\u0443\u0435\u0442 workaround \u0434\u043b\u044f\u00a0PTXAS (sm_121a is not defined for option gpu-name, Triton issue #8539)\u00a0\u2014 \u043b\u0435\u0447\u0438\u0442\u0441\u044f \u043f\u0435\u0440\u0435\u0434\u0430\u0447\u0435\u0439 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e\u0433\u043e TRITON_PTXAS_PATH \u0447\u0435\u0440\u0435\u0437 mpirun. FP8-attention \u0432\u00a0FlashInfer \u043b\u043e\u043c\u0430\u0435\u0442\u0441\u044f \u043d\u0430\u00a0illegal sync, \u043d\u0430\u0434\u043e TRITON_ATTN. NVFP4\u00a0\u0432\u00a0MoE\u00a0\u2014 \u0434\u0435\u0441\u044f\u0442\u044c \u0441\u0442\u0440\u0430\u0442\u0435\u0433\u0438\u0439 \u0438\u0437\u00a0\u0441\u0435\u043c\u043d\u0430\u0434\u0446\u0430\u0442\u0438 \u043d\u0435\u00a0\u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u044e\u0442\u0441\u044f. \u0421\u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u043e\u0432\u0430\u043d\u043d\u044b\u0445 \u043a\u0443\u0431\u0438\u043d\u043e\u0432 TRTLLM\u2011gen FMHA \u0434\u043b\u044f\u00a0SM_121\u00a0\u043d\u0435\u00a0\u0441\u0443\u0449\u0435\u0441\u0442\u0432\u0443\u0435\u0442. Marlin INT4\u00a0\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442.\u0421\u043a\u043e\u043b\u044c\u043a\u043e \u0444\u0438\u0437\u0438\u0447\u0435\u0441\u043a\u0438 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e: roofline  \u041f\u0440\u043e\u0441\u0442\u0430\u044f \u043c\u0430\u0442\u0435\u043c\u0430\u0442\u0438\u043a\u0430 \u0434\u043b\u044f \u0430\u0432\u0442\u043e\u0440\u0435\u0433\u0440\u0435\u0441\u0441\u0438\u0432\u043d\u043e\u0433\u043e \u0434\u0435\u043a\u043e\u0434\u0430 \u043d\u0430 MoE 35B \/ 3B-active:peak_tok_s = bandwidth \/ (bytes_per_param \u00d7 active_params_per_token)\u041a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u044fBytes\/token (active)Roofline tok\/s\u0420\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u043c\u0435\u0440\u0435\u043d\u043eBF166 GB4523 (Gemma 4 252K)FP83 GB9152 (FP8 65K)NVFP41.5 GB18240 (\u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u0430\u044f \u0441\u0431\u043e\u0440\u043a\u0430)NVFP4 + speculative~0.85 GB \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e~32070 (AEON-7)Roofline \u0434\u0430\u0451\u0442 \u0432\u0435\u0440\u0445\u043d\u044e\u044e \u0433\u0440\u0430\u043d\u0438\u0446\u0443. \u0420\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u0447\u0438\u0441\u043b\u0430 \u0432\u0441\u0435\u0433\u0434\u0430 \u043d\u0438\u0436\u0435. \u041f\u0440\u0438\u0447\u0438\u043d\u044b: \u0442\u0440\u0430\u0444\u0438\u043a KV-cache (\u043f\u0440\u0438\u0445\u043e\u0434\u0438\u0442\u0441\u044f \u0447\u0438\u0442\u0430\u0442\u044c \u0441\u043e\u0441\u0442\u043e\u044f\u043d\u0438\u0435 \u043f\u0440\u043e\u0448\u043b\u044b\u0445 \u0442\u043e\u043a\u0435\u043d\u043e\u0432), \u043d\u043e\u0440\u043c\u0430\u043b\u0438\u0437\u0430\u0446\u0438\u0438 \u0441\u043b\u043e\u0451\u0432, softmax, \u0441\u044d\u043c\u043f\u043b\u0438\u043d\u0433, \u043d\u0430\u043a\u043b\u0430\u0434\u043d\u044b\u0435 \u0440\u0430\u0441\u0445\u043e\u0434\u044b \u043d\u0430 \u0437\u0430\u043f\u0443\u0441\u043a \u044f\u0434\u0440\u0430 \u043f\u0440\u0438 \u043a\u0430\u0436\u0434\u043e\u043c \u0448\u0430\u0433\u0435 \u0434\u0435\u043a\u043e\u0434\u0430. \u0414\u043b\u044f NVFP4 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442\u0441\u044f \u0435\u0449\u0451 \u0438 \u0440\u0430\u0441\u043f\u0430\u043a\u043e\u0432\u043a\u0430 \u0431\u043b\u043e\u043a\u043e\u0432\u044b\u0445 \u043c\u0430\u0441\u0448\u0442\u0430\u0431\u043e\u0432.\u042d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442: \u0448\u0435\u0441\u0442\u044c \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0439 \u0412\u0441\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u043b\u0438\u0441\u044c \u043d\u0430\u00a0\u043e\u0434\u043d\u043e\u0439 \u043c\u0430\u0448\u0438\u043d\u0435, \u043e\u0434\u043d\u0438\u043c \u0438 \u0442\u0435\u043c\u00a0\u0436\u0435 \u0431\u0435\u043d\u0447\u2011\u0441\u043a\u0440\u0438\u043f\u0442\u043e\u043c. \u041f\u044f\u0442\u044c \u043e\u0434\u0438\u043d\u043e\u0447\u043d\u044b\u0445 \u0437\u0430\u043f\u0443\u0441\u043a\u043e\u0432 \u0441\u00a0\u0440\u0430\u0437\u043d\u044b\u043c\u0438 \u043f\u0440\u043e\u043c\u043f\u0442\u0430\u043c\u0438 (T=0.7, \u0434\u043e 300\u00a0\u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043d\u0430\u00a0\u043e\u0442\u0432\u0435\u0442), TTFT \u0447\u0435\u0440\u0435\u0437 \u0441\u0442\u0440\u0438\u043c\u0438\u043d\u0433, \u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e 4, 8, 16\u00a0\u0438 32\u00a0\u0437\u0430\u043f\u0440\u043e\u0441\u0430, \u0442\u044f\u0436\u0451\u043b\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 \u043d\u0430 2K \u0432\u0432\u043e\u0434\u0430 \u0438 400\u00a0\u043e\u0442\u0432\u0435\u0442\u0430. \u041c\u0435\u0436\u0434\u0443 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f\u043c\u0438 \u044f \u043e\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u043b \u0442\u0435\u043a\u0443\u0449\u0438\u0439 \u043a\u043e\u043d\u0442\u0435\u0439\u043d\u0435\u0440 vLLM \u0438 \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u043b \u043d\u043e\u0432\u044b\u0439. \u041f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u044c\u043d\u043e \u0434\u0432\u0435 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435\u00a0\u043a\u0440\u0443\u0442\u0438\u043b\u00a0\u2014 \u0432\u0442\u043e\u0440\u0430\u044f \u043d\u043e\u0434\u0430 \u043a\u043b\u0430\u0441\u0442\u0435\u0440\u0430 \u0432\u00a0\u044d\u0442\u043e \u0432\u0440\u0435\u043c\u044f \u0434\u0435\u0440\u0436\u0430\u043b\u0430 \u043e\u0442\u0434\u0435\u043b\u044c\u043d\u044b\u0439 production\u2011\u0438\u043d\u0441\u0442\u0430\u043d\u0441, \u043f\u0435\u0440\u0435\u043d\u0430\u0441\u0442\u0440\u0430\u0438\u0432\u0430\u0442\u044c \u0435\u0451 \u0440\u0430\u0434\u0438 \u0431\u0435\u043d\u0447\u0435\u0439 \u043d\u0435\u00a0\u0438\u043c\u0435\u043b\u043e \u0441\u043c\u044b\u0441\u043b\u0430.  Gemma 4 26B-A4B-it BF16 \u043d\u0430 252K\u042d\u0442\u043e \u0431\u0430\u0437\u043e\u0432\u0430\u044f \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f AGmind \u0434\u043e \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432. BF16-\u0432\u0435\u0441\u0430, FP8 KV-cache (\u0431\u0435\u0437 \u043d\u0435\u0433\u043e 252K \u043d\u0435 \u0432\u043b\u0435\u0437\u0430\u0435\u0442: 252K \u00d7 580 KB = &#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-479153","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/479153","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=479153"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/479153\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=479153"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=479153"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=479153"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}