{"id":482485,"date":"2026-06-05T08:38:59","date_gmt":"2026-06-05T08:38:59","guid":{"rendered":"https:\/\/savepearlharbor.com\/?p=482485"},"modified":"-0001-11-30T00:00:00","modified_gmt":"-0001-11-29T21:00:00","slug":"","status":"publish","type":"post","link":"https:\/\/savepearlharbor.com\/?p=482485","title":{"rendered":"Tesla v100 SXM2\u00a0 X2 32GB total"},"content":{"rendered":"<div xmlns=\"http:\/\/www.w3.org\/1999\/xhtml\">\n<p>\u041c\u043e\u0436\u043d\u043e \u043b\u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u0443\u044e 27-\u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c \u0438 \u043f\u043e\u043b\u043d\u043e\u0446\u0435\u043d\u043d\u043e\u0433\u043e \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0430\u0433\u0435\u043d\u0442\u0430 \u043d\u0430 \u043f\u0430\u0440\u0435 \u0441\u0435\u0440\u0432\u0435\u0440\u043d\u044b\u0445 \u0443\u0441\u043a\u043e\u0440\u0438\u0442\u0435\u043b\u0435\u0439 2017 \u0433\u043e\u0434\u0430, \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0432 \u043e\u0431\u044b\u0447\u043d\u044b\u0439 \u0434\u0435\u0441\u043a\u0442\u043e\u043f \u0447\u0435\u0440\u0435\u0437 \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438? \u041a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u043e\u0442\u0432\u0435\u0442 \u2014 \u0434\u0430, \u043d\u043e \u0441 \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430\u043c\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u0430\u0436\u043d\u043e \u0437\u043d\u0430\u0442\u044c \u0437\u0430\u0440\u0430\u043d\u0435\u0435.<\/p>\n<p>\u0412 \u044d\u0442\u043e\u043c \u043c\u0430\u0442\u0435\u0440\u0438\u0430\u043b\u0435 \u044f \u0440\u0430\u0437\u0431\u0438\u0440\u0430\u044e \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043a\u0435\u0439\u0441: \u0440\u0430\u0437\u0432\u0451\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u0435 <strong>Qwen3.6-27B<\/strong> \u043d\u0430 \u0434\u0432\u0443\u0445 <strong>Tesla V100-SXM2-16GB<\/strong> \u043f\u043e\u0434 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435\u043c \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0430\u0433\u0435\u043d\u0442\u0430 <strong>Hermes<\/strong> \u043e\u0442 Nous Research. \u041a\u0430\u0440\u0442\u044b \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u044b \u043a \u043f\u043e\u0442\u0440\u0435\u0431\u0438\u0442\u0435\u043b\u044c\u0441\u043a\u043e\u0439 \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0435 \u0447\u0435\u0440\u0435\u0437 \u0430\u0434\u0430\u043f\u0442\u0435\u0440\u044b SXM2\u2192PCIe \u2014 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043d\u0435\u0441\u043b\u043e\u0436\u043d\u043e \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0434\u043e\u043c\u0430, \u043d\u043e \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0430\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0436\u0451\u0441\u0442\u043a\u0438\u0435 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043d\u0430 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u0443\u044e \u0432\u0438\u0434\u0435\u043e\u043f\u0430\u043c\u044f\u0442\u044c \u0438 \u043c\u0435\u0436\u043a\u0430\u0440\u0442\u043e\u0447\u043d\u0443\u044e \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0443\u044e \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c.<\/p>\n<p>\u041f\u043e \u0438\u0442\u043e\u0433\u0430\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0430 \u044d\u0442\u0443 \u0441\u0432\u044f\u0437\u043a\u0443 \u043c\u043e\u0436\u043d\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c <strong>\u043d\u0438\u0436\u043d\u0435\u0439 \u0433\u0440\u0430\u043d\u0438\u0446\u0435\u0439 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u043c\u043e\u0441\u0442\u0438<\/strong> \u0434\u043b\u044f \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430 Hermes: \u0432\u0441\u0451 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043d\u043e \u0440\u043e\u0432\u043d\u043e \u043d\u0430 \u043f\u0440\u0435\u0434\u0435\u043b\u0435 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0435\u0439 \u0436\u0435\u043b\u0435\u0437\u0430. \u041d\u0438\u0436\u0435 \u2014 \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0431\u043e\u0440 \u0432\u0441\u0435\u0445 \u043f\u043e\u0434\u0432\u043e\u0434\u043d\u044b\u0445 \u043a\u0430\u043c\u043d\u0435\u0439, \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 \u0441 \u0433\u043e\u0442\u043e\u0432\u044b\u043c\u0438 \u043a\u043e\u043c\u0430\u043d\u0434\u0430\u043c\u0438 \u0438 \u0447\u0435\u0441\u0442\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434 \u043e \u0442\u043e\u043c, \u0433\u0434\u0435 \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0442\u0430 \u0441\u0430\u043c\u0430\u044f \u0441\u0442\u0435\u043d\u0430, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043d\u0435 \u043e\u0431\u043e\u0439\u0442\u0438 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430\u043c\u0438.<\/p>\n<h3>\u0416\u0435\u043b\u0435\u0437\u043e \u0438 \u0446\u0435\u043b\u044c<\/h3>\n<p>&#8212; <strong>\u0421\u0435\u0440\u0432\u0435\u0440:<\/strong> Proxmox, \u043f\u0440\u043e\u0431\u0440\u043e\u0441 (PCIe passthrough) \u0434\u0432\u0443\u0445 \u043a\u0430\u0440\u0442 \u0432 \u043e\u0434\u043d\u0443 VM.<\/p>\n<p>&#8212; <strong>GPU:<\/strong> 2\u00d7 Tesla V100-SXM2-16GB \u0447\u0435\u0440\u0435\u0437 \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438 SXM2\u2192PCIe. CPU \u2014 Intel 6700k.<\/p>\n<p>&#8212; <strong>\u0412\u0430\u0436\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c:<\/strong> NVLink \u043c\u0435\u0436\u0434\u0443 \u043a\u0430\u0440\u0442\u0430\u043c\u0438 <strong>\u043d\u0435\u0442<\/strong> (\u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438 \u0432\u044b\u0432\u043e\u0434\u044f\u0442 \u0442\u043e\u043b\u044c\u043a\u043e PCIe-\u043b\u0438\u043d\u0438\u0438), \u0438 6700k \u0434\u0430\u0451\u0442 \u0432\u0441\u0435\u0433\u043e 16 \u043b\u0438\u043d\u0438\u0439 PCIe 3.0 \u2192 \u043a\u0430\u0440\u0442\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0432 \u0440\u0435\u0436\u0438\u043c\u0435 <strong>x8\/x8<\/strong>.<\/p>\n<p>&#8212; <strong>\u0426\u0435\u043b\u044c:<\/strong> \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c Qwen3.6-27B-AWQ \u0438 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u0442\u044c <a href=\"https:\/\/hermes-agent.nousresearch.com\" rel=\"noopener noreferrer nofollow\">\u0430\u0433\u0435\u043d\u0442\u0430 Hermes<\/a> \u043e\u0442 Nous Research, \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u043d\u0443\u0436\u043d\u043e <strong>\u043c\u0438\u043d\u0438\u043c\u0443\u043c 65 000 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430<\/strong>.<\/p>\n<p>\u041f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u0442\u043e\u043f\u043e\u043b\u043e\u0433\u0438\u044e \u0438 \u0440\u0435\u0436\u0438\u043c \u043b\u0438\u043d\u0438\u0439 \u043c\u043e\u0436\u043d\u043e \u0442\u0430\u043a (\u0432\u043d\u0443\u0442\u0440\u0438 VM, \u043f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u0430):<\/p>\n<pre><code class=\"bash\">nvidia-smi topo -m \u00a0 \u00a0 \u00a0 \u00a0 \u00a0# \u043c\u0435\u0436\u0434\u0443 GPU0\/GPU1 \u0436\u0434\u0451\u043c NV*, \u0430 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 PHB = NVLink \u043d\u0435\u0442nvidia-smi -q | grep -A2 \"Link Width\" \u00a0 # Current: 8x = \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u043c\u0435\u0436\u043a\u0430\u0440\u0442\u043e\u0447\u043d\u043e\u0433\u043e \u043e\u0431\u043c\u0435\u043d\u0430<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:87px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<h3>\u0413\u0440\u0430\u0431\u043b\u044f \u21161: \u00ab\u043a\u0430\u0440\u0442\u044b \u0433\u0440\u0443\u0437\u044f\u0442\u0441\u044f \u043d\u0430 50%\u00bb<\/h3>\n<p>\u041a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0436\u0430\u043b\u043e\u0431\u0430: \u043f\u0440\u0438 \u0440\u0430\u0431\u043e\u0442\u0435 \u0434\u0432\u0443\u0445 \u043a\u0430\u0440\u0442 \u043a\u0430\u0436\u0434\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0436\u0435\u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043d\u0430\u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0443. \u041f\u0440\u0438\u0447\u0438\u043d\u0430 \u2014 <code>llama.cpp<\/code> \u0438 \u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0435 \u0434\u0432\u0438\u0436\u043a\u0438 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0434\u0435\u043b\u044f\u0442 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e \u0441\u043b\u043e\u044f\u043c (pipeline\/layer split): \u043f\u043e\u043a\u0430 \u0441\u0447\u0438\u0442\u0430\u0435\u0442 GPU0, GPU1 \u0436\u0434\u0451\u0442. \u0421\u0440\u0435\u0434\u043d\u0435\u0435 \u2014 50%.<\/p>\n<p>\u041b\u0435\u0447\u0438\u0442\u0441\u044f \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043e\u043c \u043d\u0430 tensor parallelism, \u0433\u0434\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0440\u0435\u0436\u0435\u0442\u0441\u044f \u00ab\u043f\u043e\u043f\u0435\u0440\u0451\u043a\u00bb \u0438 \u043e\u0431\u0435 \u043a\u0430\u0440\u0442\u044b \u0441\u0447\u0438\u0442\u0430\u044e\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e. \u0412 vLLM \u044d\u0442\u043e \u0444\u043b\u0430\u0433 <code>--tensor-parallel-size 2<\/code>. \u0418\u043c\u0435\u043d\u043d\u043e \u043e\u043d \u0434\u0430\u0451\u0442 \u043e\u0431\u0435\u0438\u043c \u043a\u0430\u0440\u0442\u0430\u043c \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 ~100% \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438.<\/p>\n<h3>\u0413\u0440\u0430\u0431\u043b\u044f \u21162: \u043d\u043e\u0432\u044b\u0439 vLLM \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442 Volta<\/h3>\n<p>Qwen3.6 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 <code>vllm&gt;=0.19.0<\/code>, \u0430 \u0441\u0432\u0435\u0436\u0438\u0439 vLLM \u0443\u0436\u0435 \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0443 Volta (sm_70) \u2014 \u043f\u0430\u0434\u0430\u0435\u0442 \u043f\u0440\u0438 \u0441\u0442\u0430\u0440\u0442\u0435. \u0412\u0434\u043e\u0431\u0430\u0432\u043e\u043a AWQ-\u044f\u0434\u0440\u0430 (Marlin) \u0442\u0440\u0435\u0431\u0443\u044e\u0442 sm_80+. \u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u2014 community-\u0444\u043e\u0440\u043a <a href=\"https:\/\/github.com\/1CatAI\/1Cat-vLLM\" rel=\"noopener noreferrer nofollow\">1Cat-vLLM<\/a>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 SM70-\u044f\u0434\u0440\u0430 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, AWQ \u043f\u043e\u0434 Volta \u0438 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0443 Qwen3.5\/3.6.<\/p>\n<p><strong>\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e 1Cat-vLLM, \u0430 \u043d\u0435 \u0434\u0440\u0443\u0433\u043e\u0439 \u0434\u0432\u0438\u0436\u043e\u043a<\/strong><\/p>\n<p>\u0417\u0434\u0435\u0441\u044c \u0441\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u0441\u0440\u0430\u0437\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u0439, \u0438 \u0437\u0430\u043a\u0440\u044b\u0442\u044c \u0438\u0445 \u0432\u0441\u0435 \u043c\u043e\u0436\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e\u0442 \u0444\u043e\u0440\u043a:<\/p>\n<p>&#8212; <strong>\u0421\u0442\u043e\u043a\u043e\u0432\u044b\u0439 vLLM<\/strong> \u043d\u043e\u0432\u044b\u0445 \u0432\u0435\u0440\u0441\u0438\u0439 \u0432\u044b\u043a\u0438\u043d\u0443\u043b \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0443 sm_70 \u2014 \u043d\u0430 V100 \u043d\u0435 \u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435.<\/p>\n<p>&#8212; <strong>\u0421\u0442\u0430\u0440\u044b\u0439 vLLM<\/strong>, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0435\u0449\u0451 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u043b Volta, \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0443 Qwen3.5\/3.6 (Gated DeltaNet + MTP) \u2014 \u0443\u043f\u0430\u0434\u0451\u0442 \u043d\u0430 \u00abunknown architecture\u00bb. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0432\u0438\u043b\u043a\u0430: \u043d\u043e\u0432\u044b\u0439 \u0434\u0432\u0438\u0436\u043e\u043a \u0437\u043d\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c, \u043d\u043e \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0436\u0435\u043b\u0435\u0437\u043e; \u0441\u0442\u0430\u0440\u044b\u0439 \u0437\u043d\u0430\u0435\u0442 \u0436\u0435\u043b\u0435\u0437\u043e, \u043d\u043e \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c.<\/p>\n<p>&#8212; <strong>llama.cpp \/ GGUF<\/strong> \u0437\u0430\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043d\u0430 V100, \u043d\u043e Qwen3.6 \u0432 GGUF \u043d\u0430 \u043c\u043e\u043c\u0435\u043d\u0442 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e \u043d\u0435 \u0441\u043e\u0431\u0438\u0440\u0430\u043b\u0430\u0441\u044c \u043f\u043e\u0434 \u044d\u0442\u043e\u0442 \u0433\u0438\u0431\u0440\u0438\u0434, \u0438 tensor-parallelism \u0442\u0430\u043c \u0441\u043b\u0430\u0431\u0435\u0435.<\/p>\n<p>&#8212; <strong>SGLang, TGI \u0438 \u043f\u0440\u043e\u0447\u0438\u0435<\/strong> \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0442\u0440\u0435\u0431\u0443\u044e\u0442 sm_75+ \u0434\u043b\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439.<\/p>\n<p>1Cat-vLLM \u2014 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0438\u0437 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445, \u043a\u0442\u043e \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e \u0437\u0430\u043a\u0440\u044b\u0432\u0430\u0435\u0442 \u043e\u0431\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0432\u0438\u043b\u043a\u0438: \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 sm_70-\u044f\u0434\u0440\u0430 (TurboMind SM70 WMMA \u0434\u043b\u044f AWQ) \u0438 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043a\u043e\u0434 \u043f\u043e\u0434 Qwen3.5\/3.6 \u0441 MTP \u0438 mamba\/GDN-\u0441\u043b\u043e\u044f\u043c\u0438. \u041f\u043b\u044e\u0441 \u043e\u043d \u0432\u0430\u043b\u0438\u0434\u0438\u0440\u043e\u0432\u0430\u043d \u0430\u0432\u0442\u043e\u0440\u0430\u043c\u0438 \u0438\u043c\u0435\u043d\u043d\u043e \u043d\u0430 multi-GPU V100 (\u0438\u0445 \u0431\u0435\u043d\u0447\u0438 \u2014 \u043d\u0430 4\u00d7V100-16GB), \u0442\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u043e \u043d\u0435 \u0442\u0435\u043e\u0440\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u043e\u0432\u043c\u0435\u0441\u0442\u0438\u043c\u043e\u0441\u0442\u044c, \u0430 \u043f\u0440\u043e\u0432\u0435\u0440\u0435\u043d\u043d\u0430\u044f \u043d\u0430 \u043d\u0430\u0448\u0435\u043c \u0436\u0435 \u043a\u043b\u0430\u0441\u0441\u0435 \u0436\u0435\u043b\u0435\u0437\u0430.<\/p>\n<p>\u0423\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0430 \u2014 \u0438\u0437 \u0433\u043e\u0442\u043e\u0432\u044b\u0445 \u043a\u043e\u043b\u0451\u0441 (\u041d\u0415 \u0438\u0437 \u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432, \u044d\u0442\u043e \u0434\u043b\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 \u044f\u0434\u0435\u0440):<\/p>\n<pre><code class=\"bash\"># \u0441\u043a\u0430\u0447\u0430\u0442\u044c \u043e\u0431\u0430.whl \u0438\u0437\u00a0\u0440\u0435\u043b\u0438\u0437\u0430mkdir \u2011p ~\/wheels &amp;&amp; cd ~\/wheelscurl \u2011s https:\/\/api.github.com\/repos\/1CatAI\/1Cat\u2011vLLM\/releases\/latest \\| grep browser_download_url | cut \u2011d '\u201c' \u2011f4\u00a0| xargs \u2011n1\u00a0wget\u201d# \u043f\u043e\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0432\u00a0conda\u2011\u0441\u0440\u0435\u0434\u0435python \u2011m pip install \u2011prefer\u2011binary \u2011no\u2011cache\u2011dir \\\u2011extra\u2011index\u2011url https:\/\/download.pytorch.org\/whl\/cu128 \\\/flash_attn_v100-*.whl.\/vllm\u2011*.whl<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041a\u043e\u043b\u0451\u0441\u0430 \u0442\u044f\u043d\u0443\u0442 torch \u043f\u043e\u0434 CUDA 12.8 \u2014 \u044d\u0442\u043e \u0441\u043e\u0432\u043c\u0435\u0441\u0442\u0438\u043c\u043e \u0441 \u0440\u0430\u043d\u0442\u0430\u0439\u043c-\u0434\u0440\u0430\u0439\u0432\u0435\u0440\u043e\u043c 580\/CUDA 13, \u0434\u043e\u0443\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u0442\u044c toolkit \u043d\u0435 \u043d\u0443\u0436\u043d\u043e.<\/p>\n<h3>\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e AWQ, \u0430 \u043d\u0435 \u043e\u0431\u044b\u0447\u043d\u044b\u0439 4-\u0431\u0438\u0442\u043d\u044b\u0439 GPTQ<\/h3>\n<p>\u042d\u0442\u043e \u043d\u0435 \u0432\u043e\u043f\u0440\u043e\u0441 \u0432\u043a\u0443\u0441\u0430 \u2014 \u0444\u043e\u0440\u043c\u0430\u0442 \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u0438\u043a\u0442\u0443\u0435\u0442 \u0441\u0430\u043c\u043e \u0436\u0435\u043b\u0435\u0437\u043e. \u041d\u0430 Volta (sm_70) \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 4-\u0431\u0438\u0442\u043d\u044b\u0445 \u0441\u0445\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0435\u0442\u0441\u044f:<\/p>\n<p>&#8212; <strong>GPTQ-Int4 \u0447\u0435\u0440\u0435\u0437 Marlin-\u044f\u0434\u0440\u0430 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 sm_80+<\/strong> (Ampere \u0438 \u043d\u043e\u0432\u0435\u0435). \u041d\u0430 V100 \u044d\u0442\u0438 \u044f\u0434\u0440\u0430 \u043d\u0435 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0438 \u043d\u0435 \u0438\u0441\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u2014 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u00ab\u0431\u044b\u0441\u0442\u0440\u044b\u0439\u00bb \u043f\u0443\u0442\u044c GPTQ \u0434\u043b\u044f \u043d\u0430\u0441 \u0437\u0430\u043a\u0440\u044b\u0442.<\/p>\n<p>&#8212; <strong>FP8-\u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f<\/strong> \u2014 \u044d\u0442\u043e \u0432\u043e\u043e\u0431\u0449\u0435 Hopper (sm_90). \u041d\u0430 Volta \u0438\u0437 FP8 \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0442\u043e\u043b\u044c\u043a\u043e \u0444\u043e\u0440\u043c\u0430\u0442 e5m2 \u0434\u043b\u044f KV-\u043a\u044d\u0448\u0430, \u0438 \u0442\u043e \u0441 \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430\u043c\u0438.<\/p>\n<p>&#8212; <strong>GPTQ-Int8<\/strong> \u0437\u0430\u0432\u043e\u0434\u0438\u0442\u0441\u044f, \u043d\u043e 8 \u0431\u0438\u0442 \u043d\u0430 \u0432\u0435\u0441 \u043e\u0437\u043d\u0430\u0447\u0430\u044e\u0442 \u0432\u0434\u0432\u043e\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440: 27B-\u043c\u043e\u0434\u0435\u043b\u044c \u0432 Int8 \u0432\u0435\u0441\u0438\u0442 ~50+ \u0413\u0411 \u0438 \u043d\u0435 \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0434\u0430\u0436\u0435 \u0431\u043b\u0438\u0437\u043a\u043e \u0432 32 \u0413\u0411 \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e\u0439 VRAM.<\/p>\n<p>\u041e\u0441\u0442\u0430\u0451\u0442\u0441\u044f <strong>AWQ 4-bit<\/strong> \u2014 \u0438 \u0438\u043c\u0435\u043d\u043d\u043e \u0435\u0433\u043e \u00ab\u043e\u0436\u0438\u0432\u043b\u044f\u0435\u0442\u00bb \u0444\u043e\u0440\u043a 1Cat-vLLM: \u043e\u043d \u0438\u043d\u0442\u0435\u0433\u0440\u0438\u0440\u0443\u0435\u0442 TurboMind SM70 WMMA-\u044f\u0434\u0440\u0430 \u0438 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0435\u0442 AWQ-\u0441\u043b\u043e\u0438 vLLM \u0442\u0430\u043a, \u0447\u0442\u043e\u0431\u044b 4-\u0431\u0438\u0442\u043d\u044b\u0439 AWQ \u0438\u0441\u043f\u043e\u043b\u043d\u044f\u043b\u0441\u044f \u043d\u0430 Volta. \u041f\u043e \u0441\u0443\u0442\u0438 \u044d\u0442\u043e <strong>\u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 4-\u0431\u0438\u0442\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 V100<\/strong>.<\/p>\n<p>\u0411\u043e\u043d\u0443\u0441\u043e\u043c AWQ-4bit \u0443\u0436\u0438\u043c\u0430\u0435\u0442 27B \u0434\u043e ~21 \u0413\u0411 \u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0442\u0430\u043a\u043e\u043c \u0432\u0438\u0434\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u043e\u043e\u0431\u0449\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u0435\u0442\u0441\u044f \u0432 2\u00d716 \u0413\u0411. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0432\u0435\u0441\u044c \u043f\u043e\u0438\u0441\u043a \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0448\u0451\u043b \u043f\u043e \u043f\u0440\u043e\u0441\u0442\u043e\u043c\u0443 \u043f\u0440\u0430\u0432\u0438\u043b\u0443: <strong>Volta \u2192 \u0442\u043e\u043b\u044c\u043a\u043e AWQ-4bit \u0447\u0435\u0440\u0435\u0437 1Cat-\u0444\u043e\u0440\u043a \u2192 \u0438\u0449\u0435\u043c AWQ-\u0441\u0431\u043e\u0440\u043a\u0438 \u043d\u0443\u0436\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439<\/strong> (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043e\u0442 QuantTrio).<\/p>\n<h3> \u0413\u0440\u0430\u0431\u043b\u0438 \u043f\u043e \u043c\u0435\u043b\u043e\u0447\u0438 (\u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043b\u0435\u0433\u043a\u043e \u0437\u0430\u0441\u0442\u0440\u044f\u0442\u044c)<\/h3>\n<p>&#8212; <strong>\u041c\u0430\u043b\u043e RAM \u0443 VM.<\/strong> vLLM \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0440\u0435\u0437\u0435\u0440\u0432\u0438\u0440\u0443\u0435\u0442 4 \u0413\u0411 swap \u043d\u0430 \u043a\u0430\u0440\u0442\u0443. \u0415\u0441\u043b\u0438 \u0443 VM \u0432\u0441\u0435\u0433\u043e 8 \u0413\u0411 RAM \u2014 \u043f\u0430\u0434\u0430\u0435\u0442 \u0441 \u00abToo large swap space\u00bb. \u0414\u0430\u0439\u0442\u0435 VM 24+ \u0413\u0411.<\/p>\n<p>&#8212; <code><strong>fp8e4nv not supported<\/strong><\/code><strong>.<\/strong> Volta \u0443\u043c\u0435\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e FP8-\u0444\u043e\u0440\u043c\u0430\u0442 <strong>e5m2<\/strong>. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 KV-\u043a\u044d\u0448 \u0432 FP8 \u0432\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a: <code>--kv-cache-dtype fp8_e5m2<\/code> (\u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e <code>fp8<\/code>).<\/p>\n<p>&#8212; <code><strong>No valid cudagraph sizes<\/strong><\/code><strong> (\u043a\u0440\u0430\u0442\u043d\u043e\u0441\u0442\u044c 5).<\/strong> \u041a\u043e\u0433\u0434\u0430 \u0432\u043a\u043b\u044e\u0447\u0451\u043d \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u044b\u0439 MTP (<code>num_speculative_tokens=4<\/code>), CUDA-\u0433\u0440\u0430\u0444\u044b \u0434\u043e\u043b\u0436\u043d\u044b \u0437\u0430\u0445\u0432\u0430\u0442\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0440\u0430\u0437\u043c\u0435\u0440\u0430\u043c\u0438 \u043a\u0440\u0430\u0442\u043d\u044b\u043c\u0438 5. \u0421\u0442\u0430\u0432\u044c\u0442\u0435 <code>--compilation-config '{\"cudagraph_mode\":\"full_and_piecewise\",\"cudagraph_capture_sizes\":[5]}'<\/code> \u0438\u043b\u0438 \u043e\u0442\u043a\u043b\u044e\u0447\u0438\u0442\u0435 MTP.<\/p>\n<p>&#8212; <strong>Tool calling.<\/strong> Hermes \u0448\u043b\u0451\u0442 <code>tool_choice: auto<\/code>, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0441\u0435\u0440\u0432\u0435\u0440 \u043d\u0430\u0434\u043e \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u0442\u044c \u0441 <code>--enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3<\/code>.<\/p>\n<h3>\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0439 \u0441\u044e\u0440\u043f\u0440\u0438\u0437: \u043f\u043e\u0447\u0435\u043c\u0443 65k \u0432\u043e\u043e\u0431\u0449\u0435 \u0432\u043b\u0435\u0437\u0430\u044e\u0442<\/h3>\n<p>Qwen3.6-27B \u2014 \u0433\u0438\u0431\u0440\u0438\u0434. \u0418\u0437 64 \u0441\u043b\u043e\u0451\u0432 \u0442\u043e\u043b\u044c\u043a\u043e 16 \u0438\u043c\u0435\u044e\u0442 \u043e\u0431\u044b\u0447\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0441 \u0440\u0430\u0441\u0442\u0443\u0449\u0438\u043c KV-\u043a\u044d\u0448\u0435\u043c, \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 48 \u2014 <strong>Gated DeltaNet (\u043b\u0438\u043d\u0435\u0439\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435)<\/strong>, \u0443 \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043a\u044d\u0448 \u043d\u0435 \u0440\u0430\u0441\u0442\u0451\u0442 \u0441 \u0434\u043b\u0438\u043d\u043e\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u0434\u043b\u0438\u043d\u043d\u044b\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0443 \u043d\u0435\u0451 \u0432 \u0440\u0430\u0437\u044b \u043c\u0435\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0443 \u043e\u0431\u044b\u0447\u043d\u043e\u0439 dense-\u043c\u043e\u0434\u0435\u043b\u0438, \u0438 65k \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435 \u0434\u043e\u0441\u0442\u0438\u0436\u0438\u043c\u044b \u0434\u0430\u0436\u0435 \u043d\u0430 32 \u0413\u0411 \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e\u0439 VRAM.<\/p>\n<h3>\u0427\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 2\u00d7V100-16GB<\/h3>\n<p>\u041f\u043e\u0441\u043b\u0435 \u0432\u0441\u0435\u0445 \u0433\u0440\u0430\u0431\u043b\u0435\u0439 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 <strong>\u0440\u0430\u0431\u043e\u0447\u0443\u044e \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044e<\/strong>: vLLM \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u0435\u0442\u0441\u044f, \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043f\u043e \u0441\u0435\u0442\u0438, Hermes \u0445\u043e\u0434\u0438\u0442, tool-calls \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 65k. \u0426\u0435\u043d\u0430 \u2014 \u043e\u0442\u043a\u043b\u044e\u0447\u0451\u043d\u043d\u044b\u0439 prefix caching (\u043e\u0431 \u044d\u0442\u043e\u043c \u043d\u0438\u0436\u0435).<\/p>\n<pre><code class=\"bash\">CUDA_VISIBLE_DEVICES=0,1 \\VLLM_DISABLE_PYNCCL=1 \\VLLM_1CAT_DISABLE_QWEN35_MTP_DEFAULTS=1 \\python -m vllm.entrypoints.openai.api_server \\\u00a0 --model ~\/models\/Qwen3.6-27B-AWQ \\\u00a0 --served-model-name qwen36 \\\u00a0 --tensor-parallel-size 2 \\\u00a0 --dtype float16 \\\u00a0 --kv-cache-dtype fp8_e5m2 \\\u00a0 --gpu-memory-utilization 0.92 \\\u00a0 --max-model-len 65536 \\\u00a0 --max-num-seqs 1 \\\u00a0 --max-num-batched-tokens 512 \\\u00a0 --trust-remote-code \\\u00a0 --attention-backend TRITON_ATTN \\\u00a0 --disable-custom-all-reduce \\\u00a0 --skip-mm-profiling \\\u00a0 --limit-mm-per-prompt '{\"image\":0,\"video\":0}' \\\u00a0 --enable-auto-tool-choice \\\u00a0 --tool-call-parser qwen3_coder \\\u00a0 --reasoning-parser qwen3 \\\u00a0 --compilation-config '{\"cudagraph_mode\":\"full_and_piecewise\",\"cudagraph_capture_sizes\":[1]}' \\\u00a0 --host 0.0.0.0 --port 8000<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u0438 \u0442\u0435\u0441\u0442\u0430:<\/p>\n<pre><code class=\"bash\">curl -s http:\/\/127.0.0.1:8000\/v1\/models | python3 -m json.tool \u00a0 # max_model_lencurl http:\/\/127.0.0.1:8000\/v1\/chat\/completions -H 'Content-Type: application\/json' \\\u00a0 -d '{\"model\":\"qwen36\",\"messages\":[{\"role\":\"user\",\"content\":\"\u041f\u0440\u0438\u0432\u0435\u0442!\"}],\"max_tokens\":100}'<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u0420\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u0438: \u0434\u0435\u043a\u043e\u0434 ~45 \u0442\u043e\u043a\/\u0441, \u043e\u0431\u0435 \u043a\u0430\u0440\u0442\u044b \u043f\u043e\u0434 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u043e\u0439. <strong>\u041c\u0438\u043d\u0443\u0441<\/strong> \u2014 \u043a\u0430\u0436\u0434\u044b\u0439 \u0445\u043e\u0434 \u0430\u0433\u0435\u043d\u0442 \u0437\u0430\u043d\u043e\u0432\u043e \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u0435\u0441\u044c \u043f\u0440\u043e\u043c\u043f\u0442 (\u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 prefill), \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u043a\u044d\u0448 \u043e\u0442\u043a\u043b\u044e\u0447\u0451\u043d.<\/p>\n<h3>\u0413\u0434\u0435 \u0441\u0442\u0435\u043d\u0430: 65k + prefix caching \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e \u043d\u0435 \u0432\u044b\u0445\u043e\u0434\u0438\u0442<\/h3>\n<p>\u041b\u043e\u0433\u0438\u0447\u043d\u044b\u0439 \u0448\u0430\u0433 \u2014 \u0432\u043a\u043b\u044e\u0447\u0438\u0442\u044c prefix caching, \u0447\u0442\u043e\u0431\u044b \u0441\u0442\u0430\u0442\u0438\u0447\u043d\u044b\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 + 60 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 Hermes \u043d\u0435 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u043b\u0438\u0441\u044c \u043a\u0430\u0436\u0434\u044b\u0439 \u0445\u043e\u0434. \u041d\u043e \u043d\u0430 2 \u043a\u0430\u0440\u0442\u0430\u0445 \u044d\u0442\u043e \u043d\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0438 \u0432\u043e\u0442 \u043f\u043e\u0447\u0435\u043c\u0443.<\/p>\n<p>Prefix caching \u043d\u0430 \u044d\u0442\u043e\u0439 \u0433\u0438\u0431\u0440\u0438\u0434\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u043f\u0430\u0440\u0435 \u0441 <code>--mamba-cache-mode align<\/code>. \u0410 align-\u0440\u0435\u0436\u0438\u043c \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u043f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u0432\u044b\u0440\u043e\u0432\u043d\u0435\u043d\u043d\u044b\u0439 \u043a\u044d\u0448 Gated DeltaNet. \u0412 \u0441\u0443\u043c\u043c\u0435 \u00ab\u0432\u0435\u0441\u0430 21 \u0413\u0411 + 65k KV + align-\u0431\u0443\u0444\u0435\u0440\u044b + \u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0431\u0443\u0444\u0435\u0440\u044b GDN-\u044f\u0434\u0440\u0430\u00bb \u043d\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u044e\u0442\u0441\u044f \u0432 32 \u0413\u0411. \u0421\u0435\u0440\u0432\u0435\u0440 <strong>\u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442<\/strong> (\u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 KV \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442), \u043d\u043e <strong>\u043f\u0430\u0434\u0430\u0435\u0442 \u043d\u0430 \u043f\u0435\u0440\u0432\u043e\u043c \u0436\u0435 \u0437\u0430\u043f\u0440\u043e\u0441\u0435<\/strong> \u0432 \u044f\u0434\u0440\u0435 <code>chunk_gated_delta_rule<\/code>:<\/p>\n<pre><code class=\"bash\">RuntimeError: Triton Error [CUDA]: out of memory<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p>\u041c\u044b \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u043b\u0438 \u044d\u0442\u043e \u043f\u0440\u0438 <code>gpu-memory-utilization<\/code> 0.95 \u0438 0.88, \u0441 \u0440\u0430\u0437\u043d\u044b\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043e\u043c \u2014 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0434\u0438\u043d. \u041d\u0430 2\u00d716GB \u0447\u0435\u0441\u0442\u043d\u043e \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0438\u043c\u0435\u0442\u044c <strong>\u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e<\/strong> 65k \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0449\u0438\u0439 prefix cache. \u0422\u0440\u0438 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445 \u0440\u0435\u0436\u0438\u043c\u0430:<\/p>\n<div>\n<div class=\"table\">\n<table>\n<tbody>\n<tr>\n<td>\n<p align=\"left\">\u0420\u0435\u0436\u0438\u043c <\/p>\n<\/td>\n<td>\n<p align=\"left\">65k?<\/p>\n<\/td>\n<td>\n<p align=\"left\">Prefix cache?<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0418\u0442\u043e\u0433 <\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">65k \u0431\u0435\u0437 \u043a\u044d\u0448\u0430 (fp8, \u0431\u0435\u0437 align\/MTP) <\/p>\n<\/td>\n<td>\n<p align=\"left\"> \u0434\u0430<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u043d\u0435\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\"><strong>\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043d\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 prefill<\/strong> <\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\">\u041a\u044d\u0448 + align, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 &lt;65k <\/p>\n<\/td>\n<td>\n<p align=\"left\">\u043d\u0435\u0442<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0434\u0430 <\/p>\n<\/td>\n<td>\n<p align=\"left\">Hermes \u043d\u0435 \u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 (\u043d\u0443\u0436\u0435\u043d \u043c\u0438\u043d\u0438\u043c\u0443\u043c 64k) <\/p>\n<\/td>\n<\/tr>\n<tr>\n<td>\n<p align=\"left\"> 65k + align<\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 <\/p>\n<\/td>\n<td>\n<p align=\"left\">\u0434\u0430 <\/p>\n<\/td>\n<td>\n<p><strong>\u043f\u0430\u0434\u0430\u0435\u0442 \u0432 \u0440\u0430\u043d\u0442\u0430\u0439\u043c\u0435 (OOM \u0432 GDN)<\/strong> <\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<h3>\u0420\u0430\u0437\u0432\u0438\u043b\u043a\u0430 \u0438 \u0440\u0435\u0448\u0435\u043d\u0438\u044f<\/h3>\n<p><strong>\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0410 \u2014 \u0436\u0438\u0442\u044c \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u0435\u0441\u0442\u044c.<\/strong> Qwen3.6-27B \u043d\u0430 65k \u0431\u0435\u0437 \u043a\u044d\u0448\u0430. \u041f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0440\u0430\u0431\u043e\u0447\u0438\u0439 \u0430\u0433\u0435\u043d\u0442, \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u0435\u0440\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0445\u043e\u0434\u0430 \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u043f\u043e\u043b\u043d\u044b\u0439 prefill (\u043d\u0430 x8 PCIe \u044d\u0442\u043e \u043e\u0449\u0443\u0442\u0438\u043c\u043e).<\/p>\n<p><strong>\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0411 \u2014 \u0432\u0437\u044f\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043c\u0435\u043d\u044c\u0448\u0435.<\/strong> \u041f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u043a\u044d\u0448 \u043e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u0435\u043d\u044c\u0448\u0435\u0435 \u0447\u0438\u0441\u043b\u043e \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 (MoE-\u043c\u043e\u0434\u0435\u043b\u0438 \u0441 A3B \u0432\u0435\u0441\u044f\u0442 \u043a\u0430\u043a \u043f\u043e\u043b\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u0434\u043b\u044f \u043f\u0430\u043c\u044f\u0442\u0438 \u043d\u0435 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442). \u041e\u0442\u043b\u0438\u0447\u043d\u044b\u0439 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442 \u2014 <strong>Qwen3.5-9B-AWQ<\/strong> (~6 \u0413\u0411): \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0441 \u043e\u0433\u0440\u043e\u043c\u043d\u044b\u043c \u0437\u0430\u043f\u0430\u0441\u043e\u043c, \u0438 65k + prefix cache + MTP \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442. \u0426\u0435\u043d\u0430 \u2014 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e 9B \u0432\u043c\u0435\u0441\u0442\u043e 27B.<\/p>\n<pre><code class=\"bash\">CUDA_VISIBLE_DEVICES=0,1 VLLM_DISABLE_PYNCCL=1 \\python -m vllm.entrypoints.openai.api_server \\\u00a0 --model ~\/models\/Qwen3.5-9B-AWQ --served-model-name qwen35-9b \\\u00a0 --tensor-parallel-size 2 --dtype float16 \\\u00a0 --gpu-memory-utilization 0.90 --max-model-len 65536 \\\u00a0 --enable-prefix-caching \\\u00a0 --trust-remote-code --attention-backend TRITON_ATTN --disable-custom-all-reduce \\\u00a0 --skip-mm-profiling --limit-mm-per-prompt '{\"image\":0,\"video\":0}' \\\u00a0 --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 \\\u00a0 --host 0.0.0.0 --port 8000<\/code><div class=\"code-explainer\"><a href=\"https:\/\/sourcecraft.dev\/\" class=\"tm-button code-explainer__link\" style=\"visibility: hidden;\"><img style=\"width:14px;height:14px;object-fit:cover;object-position:left;\"\/><\/a><\/div><\/pre>\n<p><strong>\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0412 \u2014 3-\u044f \u043a\u0430\u0440\u0442\u0430.<\/strong> \u0421 pipeline-\u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u0438\u0437\u043c\u043e\u043c (<code>--pipeline-parallel-size 3 --tensor-parallel-size 1<\/code>) \u0432\u0435\u0441\u0430 21 \u0413\u0411 \u0440\u0430\u0437\u043c\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u043f\u043e ~7 \u0413\u0411 \u043d\u0430 \u043a\u0430\u0440\u0442\u0443, \u043e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u044f \u043f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u0432\u0441\u0451 \u0441\u0440\u0430\u0437\u0443: 65k + prefix cache + MTP. \u042d\u0442\u043e \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u043f\u0443\u0442\u044c \u043f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u00ab27B + \u0431\u044b\u0441\u0442\u0440\u044b\u0439 \u0430\u0433\u0435\u043d\u0442\u00bb. \u041d\u044e\u0430\u043d\u0441: <code>--tensor-parallel-size 3<\/code> \u0434\u043b\u044f \u044d\u0442\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u043d\u0435\u0432\u0430\u043b\u0438\u0434\u0435\u043d (4 KV-\u0433\u043e\u043b\u043e\u0432\u044b \u043d\u0435 \u0434\u0435\u043b\u044f\u0442\u0441\u044f \u043d\u0430 3), \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e pipeline.<\/p>\n<h3>\u0412\u044b\u0432\u043e\u0434\u044b<\/h3>\n<p>1. \u0421\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 LLM \u043d\u0430 \u0441\u0442\u0430\u0440\u044b\u0445 V100 <strong>\u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u044e\u0442\u0441\u044f<\/strong> \u2014 \u0441\u043f\u0430\u0441\u0438\u0431\u043e community-\u0444\u043e\u0440\u043a\u0443 1Cat-vLLM \u0438 \u0433\u0438\u0431\u0440\u0438\u0434\u043d\u043e\u0439 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0435 Qwen3.6.<\/p>\n<p>2. Tensor parallelism (<code>--tensor-parallel-size 2<\/code>) \u043b\u0435\u0447\u0438\u0442 \u00ab50% \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438\u00bb.<\/p>\n<p>3. \u041d\u0430 2\u00d716GB \u0431\u0435\u0437 NVLink \u0435\u0441\u0442\u044c \u0436\u0451\u0441\u0442\u043a\u0430\u044f \u0441\u0442\u0435\u043d\u0430: <strong>65k \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u0438 prefix caching \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e \u043d\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u044e\u0442\u0441\u044f<\/strong>. \u042d\u0442\u043e \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u0435 \u043f\u0430\u043c\u044f\u0442\u0438, \u0430 \u043d\u0435 \u043d\u0430\u0441\u0442\u0440\u043e\u0435\u043a.<\/p>\n<p>4. \u041f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u0432\u044b\u0431\u043e\u0440: <strong>27B \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u043e<\/strong> (\u0431\u0435\u0437 \u043a\u044d\u0448\u0430), <strong>9B \u0431\u044b\u0441\u0442\u0440\u043e<\/strong> (\u0441 \u043a\u044d\u0448\u0435\u043c), \u0438\u043b\u0438 <strong>3-\u044f \u043a\u0430\u0440\u0442\u0430<\/strong> \u2014 \u0438 \u0442\u043e\u0433\u0434\u0430 27B \u0431\u044b\u0441\u0442\u0440\u043e.<\/p>\n<p>\u0415\u0441\u043b\u0438 \u0432\u0430\u0448\u0430 \u0437\u0430\u0434\u0430\u0447\u0430 \u2014 \u0444\u043e\u043d\u043e\u0432\u044b\u0439 \u0430\u0433\u0435\u043d\u0442 \u0432 \u043c\u0435\u0441\u0441\u0435\u043d\u0434\u0436\u0435\u0440\u0435, \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 prefill \u0442\u0435\u0440\u043f\u0438\u043c. \u0415\u0441\u043b\u0438 \u043d\u0443\u0436\u0435\u043d \u0438\u043d\u0442\u0435\u0440\u0430\u043a\u0442\u0438\u0432 \u00ab\u043a\u0430\u043a ChatGPT\u00bb \u2014 \u0431\u0435\u0440\u0438\u0442\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043c\u0435\u043d\u044c\u0448\u0435 \u0438\u043b\u0438 \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0439\u0442\u0435 \u043a\u0430\u0440\u0442\u0443. \u0416\u0435\u043b\u0435\u0437\u043e \u0447\u0435\u0441\u0442\u043d\u043e \u0434\u0438\u043a\u0442\u0443\u0435\u0442 \u043f\u0440\u0430\u0432\u0438\u043b\u0430.<\/p>\n<hr\/>\n<p><em>\u041a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f \u043d\u0430 \u043c\u043e\u043c\u0435\u043d\u0442 \u043d\u0430\u043f\u0438\u0441\u0430\u043d\u0438\u044f: Proxmox + Ubuntu 22.04\/24.04 \u0432 VM, 2\u00d7 Tesla V100-SXM2-16GB (sm_70, x8 PCIe, \u0431\u0435\u0437 NVLink), \u0434\u0440\u0430\u0439\u0432\u0435\u0440 580 \/ CUDA 13, 1Cat-vLLM 1.1.0, Qwen3.6-27B-AWQ, Hermes Agent.<\/em><\/p>\n<\/div>\n<p>\u0441\u0441\u044b\u043b\u043a\u0430 \u043d\u0430 \u043e\u0440\u0438\u0433\u0438\u043d\u0430\u043b \u0441\u0442\u0430\u0442\u044c\u0438 <a href=\"https:\/\/habr.com\/ru\/articles\/1043956\/\">https:\/\/habr.com\/ru\/articles\/1043956\/<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u041c\u043e\u0436\u043d\u043e \u043b\u0438 \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u0443\u044e 27-\u043c\u0438\u043b\u043b\u0438\u0430\u0440\u0434\u043d\u0443\u044e \u043c\u043e\u0434\u0435\u043b\u044c \u0438 \u043f\u043e\u043b\u043d\u043e\u0446\u0435\u043d\u043d\u043e\u0433\u043e \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0430\u0433\u0435\u043d\u0442\u0430 \u043d\u0430 \u043f\u0430\u0440\u0435 \u0441\u0435\u0440\u0432\u0435\u0440\u043d\u044b\u0445 \u0443\u0441\u043a\u043e\u0440\u0438\u0442\u0435\u043b\u0435\u0439 2017 \u0433\u043e\u0434\u0430, \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043b\u0435\u043d\u043d\u044b\u0445 \u0432 \u043e\u0431\u044b\u0447\u043d\u044b\u0439 \u0434\u0435\u0441\u043a\u0442\u043e\u043f \u0447\u0435\u0440\u0435\u0437 \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438? \u041a\u043e\u0440\u043e\u0442\u043a\u0438\u0439 \u043e\u0442\u0432\u0435\u0442 \u2014 \u0434\u0430, \u043d\u043e \u0441 \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430\u043c\u0438, \u043a\u043e\u0442\u043e\u0440\u044b\u0435 \u0432\u0430\u0436\u043d\u043e \u0437\u043d\u0430\u0442\u044c \u0437\u0430\u0440\u0430\u043d\u0435\u0435.\u0412 \u044d\u0442\u043e\u043c \u043c\u0430\u0442\u0435\u0440\u0438\u0430\u043b\u0435 \u044f \u0440\u0430\u0437\u0431\u0438\u0440\u0430\u044e \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u0438\u0439 \u043a\u0435\u0439\u0441: \u0440\u0430\u0437\u0432\u0451\u0440\u0442\u044b\u0432\u0430\u043d\u0438\u0435 Qwen3.6-27B \u043d\u0430 \u0434\u0432\u0443\u0445 Tesla V100-SXM2-16GB \u043f\u043e\u0434 \u0443\u043f\u0440\u0430\u0432\u043b\u0435\u043d\u0438\u0435\u043c \u0430\u0432\u0442\u043e\u043d\u043e\u043c\u043d\u043e\u0433\u043e \u0430\u0433\u0435\u043d\u0442\u0430 Hermes \u043e\u0442 Nous Research. \u041a\u0430\u0440\u0442\u044b \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0435\u043d\u044b \u043a \u043f\u043e\u0442\u0440\u0435\u0431\u0438\u0442\u0435\u043b\u044c\u0441\u043a\u043e\u0439 \u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0435 \u0447\u0435\u0440\u0435\u0437 \u0430\u0434\u0430\u043f\u0442\u0435\u0440\u044b SXM2\u2192PCIe \u2014 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043d\u0435\u0441\u043b\u043e\u0436\u043d\u043e \u0441\u043e\u0431\u0440\u0430\u0442\u044c \u0434\u043e\u043c\u0430, \u043d\u043e \u043a\u043e\u0442\u043e\u0440\u0430\u044f \u043d\u0430\u043a\u043b\u0430\u0434\u044b\u0432\u0430\u0435\u0442 \u0436\u0451\u0441\u0442\u043a\u0438\u0435 \u043e\u0433\u0440\u0430\u043d\u0438\u0447\u0435\u043d\u0438\u044f \u043d\u0430 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u0443\u044e \u0432\u0438\u0434\u0435\u043e\u043f\u0430\u043c\u044f\u0442\u044c \u0438 \u043c\u0435\u0436\u043a\u0430\u0440\u0442\u043e\u0447\u043d\u0443\u044e \u043f\u0440\u043e\u043f\u0443\u0441\u043a\u043d\u0443\u044e \u0441\u043f\u043e\u0441\u043e\u0431\u043d\u043e\u0441\u0442\u044c.\u041f\u043e \u0438\u0442\u043e\u0433\u0430\u043c \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u0430 \u044d\u0442\u0443 \u0441\u0432\u044f\u0437\u043a\u0443 \u043c\u043e\u0436\u043d\u043e \u0441\u0447\u0438\u0442\u0430\u0442\u044c \u043d\u0438\u0436\u043d\u0435\u0439 \u0433\u0440\u0430\u043d\u0438\u0446\u0435\u0439 \u043f\u0440\u0430\u043a\u0442\u0438\u0447\u0435\u0441\u043a\u043e\u0439 \u043f\u0440\u0438\u043c\u0435\u043d\u0438\u043c\u043e\u0441\u0442\u0438 \u0434\u043b\u044f \u043b\u043e\u043a\u0430\u043b\u044c\u043d\u043e\u0433\u043e \u0437\u0430\u043f\u0443\u0441\u043a\u0430 Hermes: \u0432\u0441\u0451 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043d\u043e \u0440\u043e\u0432\u043d\u043e \u043d\u0430 \u043f\u0440\u0435\u0434\u0435\u043b\u0435 \u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e\u0441\u0442\u0435\u0439 \u0436\u0435\u043b\u0435\u0437\u0430. \u041d\u0438\u0436\u0435 \u2014 \u043f\u043e\u0441\u043b\u0435\u0434\u043e\u0432\u0430\u0442\u0435\u043b\u044c\u043d\u044b\u0439 \u0440\u0430\u0437\u0431\u043e\u0440 \u0432\u0441\u0435\u0445 \u043f\u043e\u0434\u0432\u043e\u0434\u043d\u044b\u0445 \u043a\u0430\u043c\u043d\u0435\u0439, \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u0438 \u0441 \u0433\u043e\u0442\u043e\u0432\u044b\u043c\u0438 \u043a\u043e\u043c\u0430\u043d\u0434\u0430\u043c\u0438 \u0438 \u0447\u0435\u0441\u0442\u043d\u044b\u0439 \u0432\u044b\u0432\u043e\u0434 \u043e \u0442\u043e\u043c, \u0433\u0434\u0435 \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442 \u0442\u0430 \u0441\u0430\u043c\u0430\u044f \u0441\u0442\u0435\u043d\u0430, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043d\u0435 \u043e\u0431\u043e\u0439\u0442\u0438 \u043d\u0430\u0441\u0442\u0440\u043e\u0439\u043a\u0430\u043c\u0438.\u0416\u0435\u043b\u0435\u0437\u043e \u0438 \u0446\u0435\u043b\u044c- \u0421\u0435\u0440\u0432\u0435\u0440: Proxmox, \u043f\u0440\u043e\u0431\u0440\u043e\u0441 (PCIe passthrough) \u0434\u0432\u0443\u0445 \u043a\u0430\u0440\u0442 \u0432 \u043e\u0434\u043d\u0443 VM.- GPU: 2\u00d7 Tesla V100-SXM2-16GB \u0447\u0435\u0440\u0435\u0437 \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438 SXM2\u2192PCIe. CPU \u2014 Intel 6700k.- \u0412\u0430\u0436\u043d\u0430\u044f \u0434\u0435\u0442\u0430\u043b\u044c: NVLink \u043c\u0435\u0436\u0434\u0443 \u043a\u0430\u0440\u0442\u0430\u043c\u0438 \u043d\u0435\u0442 (\u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043d\u0438\u043a\u0438 \u0432\u044b\u0432\u043e\u0434\u044f\u0442 \u0442\u043e\u043b\u044c\u043a\u043e PCIe-\u043b\u0438\u043d\u0438\u0438), \u0438 6700k \u0434\u0430\u0451\u0442 \u0432\u0441\u0435\u0433\u043e 16 \u043b\u0438\u043d\u0438\u0439 PCIe 3.0 \u2192 \u043a\u0430\u0440\u0442\u044b \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442 \u0432 \u0440\u0435\u0436\u0438\u043c\u0435 x8\/x8.- \u0426\u0435\u043b\u044c: \u0437\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u044c Qwen3.6-27B-AWQ \u0438 \u043f\u043e\u0434\u043a\u043b\u044e\u0447\u0438\u0442\u044c \u0430\u0433\u0435\u043d\u0442\u0430 Hermes \u043e\u0442 Nous Research, \u043a\u043e\u0442\u043e\u0440\u043e\u043c\u0443 \u043d\u0443\u0436\u043d\u043e \u043c\u0438\u043d\u0438\u043c\u0443\u043c 65 000 \u0442\u043e\u043a\u0435\u043d\u043e\u0432 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430.\u041f\u0440\u043e\u0432\u0435\u0440\u0438\u0442\u044c \u0442\u043e\u043f\u043e\u043b\u043e\u0433\u0438\u044e \u0438 \u0440\u0435\u0436\u0438\u043c \u043b\u0438\u043d\u0438\u0439 \u043c\u043e\u0436\u043d\u043e \u0442\u0430\u043a (\u0432\u043d\u0443\u0442\u0440\u0438 VM, \u043f\u043e\u0441\u043b\u0435 \u0443\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0438 \u0434\u0440\u0430\u0439\u0432\u0435\u0440\u0430):nvidia-smi topo -m \u00a0 \u00a0 \u00a0 \u00a0 \u00a0# \u043c\u0435\u0436\u0434\u0443 GPU0\/GPU1 \u0436\u0434\u0451\u043c NV*, \u0430 \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 PHB = NVLink \u043d\u0435\u0442nvidia-smi -q | grep -A2 &#171;Link Width&#187; \u00a0 # Current: 8x = \u043f\u043e\u0442\u043e\u043b\u043e\u043a \u043c\u0435\u0436\u043a\u0430\u0440\u0442\u043e\u0447\u043d\u043e\u0433\u043e \u043e\u0431\u043c\u0435\u043d\u0430\u0413\u0440\u0430\u0431\u043b\u044f \u21161: \u00ab\u043a\u0430\u0440\u0442\u044b \u0433\u0440\u0443\u0437\u044f\u0442\u0441\u044f \u043d\u0430 50%\u00bb\u041a\u043b\u0430\u0441\u0441\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0436\u0430\u043b\u043e\u0431\u0430: \u043f\u0440\u0438 \u0440\u0430\u0431\u043e\u0442\u0435 \u0434\u0432\u0443\u0445 \u043a\u0430\u0440\u0442 \u043a\u0430\u0436\u0434\u0430\u044f \u0437\u0430\u0433\u0440\u0443\u0436\u0435\u043d\u0430 \u043f\u0440\u0438\u043c\u0435\u0440\u043d\u043e \u043d\u0430\u043f\u043e\u043b\u043e\u0432\u0438\u043d\u0443. \u041f\u0440\u0438\u0447\u0438\u043d\u0430 \u2014 llama.cpp \u0438 \u043f\u043e\u0434\u043e\u0431\u043d\u044b\u0435 \u0434\u0432\u0438\u0436\u043a\u0438 \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0434\u0435\u043b\u044f\u0442 \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e \u0441\u043b\u043e\u044f\u043c (pipeline\/layer split): \u043f\u043e\u043a\u0430 \u0441\u0447\u0438\u0442\u0430\u0435\u0442 GPU0, GPU1 \u0436\u0434\u0451\u0442. \u0421\u0440\u0435\u0434\u043d\u0435\u0435 \u2014 50%.\u041b\u0435\u0447\u0438\u0442\u0441\u044f \u043f\u0435\u0440\u0435\u0445\u043e\u0434\u043e\u043c \u043d\u0430 tensor parallelism, \u0433\u0434\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0440\u0435\u0436\u0435\u0442\u0441\u044f \u00ab\u043f\u043e\u043f\u0435\u0440\u0451\u043a\u00bb \u0438 \u043e\u0431\u0435 \u043a\u0430\u0440\u0442\u044b \u0441\u0447\u0438\u0442\u0430\u044e\u0442 \u043a\u0430\u0436\u0434\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e. \u0412 vLLM \u044d\u0442\u043e \u0444\u043b\u0430\u0433 &#8212;tensor-parallel-size 2. \u0418\u043c\u0435\u043d\u043d\u043e \u043e\u043d \u0434\u0430\u0451\u0442 \u043e\u0431\u0435\u0438\u043c \u043a\u0430\u0440\u0442\u0430\u043c \u0440\u0435\u0430\u043b\u044c\u043d\u044b\u0435 ~100% \u0437\u0430\u0433\u0440\u0443\u0437\u043a\u0438.\u0413\u0440\u0430\u0431\u043b\u044f \u21162: \u043d\u043e\u0432\u044b\u0439 vLLM \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442 VoltaQwen3.6 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 vllm&gt;=0.19.0, \u0430 \u0441\u0432\u0435\u0436\u0438\u0439 vLLM \u0443\u0436\u0435 \u043d\u0435 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u0435\u0442 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0443 Volta (sm_70) \u2014 \u043f\u0430\u0434\u0430\u0435\u0442 \u043f\u0440\u0438 \u0441\u0442\u0430\u0440\u0442\u0435. \u0412\u0434\u043e\u0431\u0430\u0432\u043e\u043a AWQ-\u044f\u0434\u0440\u0430 (Marlin) \u0442\u0440\u0435\u0431\u0443\u044e\u0442 sm_80+. \u0420\u0435\u0448\u0435\u043d\u0438\u0435 \u2014 community-\u0444\u043e\u0440\u043a 1Cat-vLLM, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 SM70-\u044f\u0434\u0440\u0430 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u044f, AWQ \u043f\u043e\u0434 Volta \u0438 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0443 Qwen3.5\/3.6.\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e 1Cat-vLLM, \u0430 \u043d\u0435 \u0434\u0440\u0443\u0433\u043e\u0439 \u0434\u0432\u0438\u0436\u043e\u043a\u0417\u0434\u0435\u0441\u044c \u0441\u0445\u043e\u0434\u044f\u0442\u0441\u044f \u0441\u0440\u0430\u0437\u0443 \u043d\u0435\u0441\u043a\u043e\u043b\u044c\u043a\u043e \u0442\u0440\u0435\u0431\u043e\u0432\u0430\u043d\u0438\u0439, \u0438 \u0437\u0430\u043a\u0440\u044b\u0442\u044c \u0438\u0445 \u0432\u0441\u0435 \u043c\u043e\u0436\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u044d\u0442\u043e\u0442 \u0444\u043e\u0440\u043a:- \u0421\u0442\u043e\u043a\u043e\u0432\u044b\u0439 vLLM \u043d\u043e\u0432\u044b\u0445 \u0432\u0435\u0440\u0441\u0438\u0439 \u0432\u044b\u043a\u0438\u043d\u0443\u043b \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u043a\u0443 sm_70 \u2014 \u043d\u0430 V100 \u043d\u0435 \u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435.- \u0421\u0442\u0430\u0440\u044b\u0439 vLLM, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0435\u0449\u0451 \u043f\u043e\u0434\u0434\u0435\u0440\u0436\u0438\u0432\u0430\u043b Volta, \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0430\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u0443 Qwen3.5\/3.6 (Gated DeltaNet + MTP) \u2014 \u0443\u043f\u0430\u0434\u0451\u0442 \u043d\u0430 \u00abunknown architecture\u00bb. \u041f\u043e\u043b\u0443\u0447\u0430\u0435\u0442\u0441\u044f \u0432\u0438\u043b\u043a\u0430: \u043d\u043e\u0432\u044b\u0439 \u0434\u0432\u0438\u0436\u043e\u043a \u0437\u043d\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c, \u043d\u043e \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u0436\u0435\u043b\u0435\u0437\u043e; \u0441\u0442\u0430\u0440\u044b\u0439 \u0437\u043d\u0430\u0435\u0442 \u0436\u0435\u043b\u0435\u0437\u043e, \u043d\u043e \u043d\u0435 \u0437\u043d\u0430\u0435\u0442 \u043c\u043e\u0434\u0435\u043b\u044c.- llama.cpp \/ GGUF \u0437\u0430\u0432\u043e\u0434\u0438\u0442\u0441\u044f \u043d\u0430 V100, \u043d\u043e Qwen3.6 \u0432 GGUF \u043d\u0430 \u043c\u043e\u043c\u0435\u043d\u0442 \u044d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442\u043e\u0432 \u043a\u043e\u0440\u0440\u0435\u043a\u0442\u043d\u043e \u043d\u0435 \u0441\u043e\u0431\u0438\u0440\u0430\u043b\u0430\u0441\u044c \u043f\u043e\u0434 \u044d\u0442\u043e\u0442 \u0433\u0438\u0431\u0440\u0438\u0434, \u0438 tensor-parallelism \u0442\u0430\u043c \u0441\u043b\u0430\u0431\u0435\u0435.- SGLang, TGI \u0438 \u043f\u0440\u043e\u0447\u0438\u0435 \u043e\u0444\u0438\u0446\u0438\u0430\u043b\u044c\u043d\u043e \u0442\u0440\u0435\u0431\u0443\u044e\u0442 sm_75+ \u0434\u043b\u044f \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439.1Cat-vLLM \u2014 \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 \u0438\u0437 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445, \u043a\u0442\u043e \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e \u0437\u0430\u043a\u0440\u044b\u0432\u0430\u0435\u0442 \u043e\u0431\u0435 \u0441\u0442\u043e\u0440\u043e\u043d\u044b \u0432\u0438\u043b\u043a\u0438: \u0432\u043e\u0437\u0432\u0440\u0430\u0449\u0430\u0435\u0442 sm_70-\u044f\u0434\u0440\u0430 (TurboMind SM70 WMMA \u0434\u043b\u044f AWQ) \u0438 \u0441\u043e\u0434\u0435\u0440\u0436\u0438\u0442 \u043a\u043e\u0434 \u043f\u043e\u0434 Qwen3.5\/3.6 \u0441 MTP \u0438 mamba\/GDN-\u0441\u043b\u043e\u044f\u043c\u0438. \u041f\u043b\u044e\u0441 \u043e\u043d \u0432\u0430\u043b\u0438\u0434\u0438\u0440\u043e\u0432\u0430\u043d \u0430\u0432\u0442\u043e\u0440\u0430\u043c\u0438 \u0438\u043c\u0435\u043d\u043d\u043e \u043d\u0430 multi-GPU V100 (\u0438\u0445 \u0431\u0435\u043d\u0447\u0438 \u2014 \u043d\u0430 4\u00d7V100-16GB), \u0442\u043e \u0435\u0441\u0442\u044c \u044d\u0442\u043e \u043d\u0435 \u0442\u0435\u043e\u0440\u0435\u0442\u0438\u0447\u0435\u0441\u043a\u0430\u044f \u0441\u043e\u0432\u043c\u0435\u0441\u0442\u0438\u043c\u043e\u0441\u0442\u044c, \u0430 \u043f\u0440\u043e\u0432\u0435\u0440\u0435\u043d\u043d\u0430\u044f \u043d\u0430 \u043d\u0430\u0448\u0435\u043c \u0436\u0435 \u043a\u043b\u0430\u0441\u0441\u0435 \u0436\u0435\u043b\u0435\u0437\u0430.\u0423\u0441\u0442\u0430\u043d\u043e\u0432\u043a\u0430 \u2014 \u0438\u0437 \u0433\u043e\u0442\u043e\u0432\u044b\u0445 \u043a\u043e\u043b\u0451\u0441 (\u041d\u0415 \u0438\u0437 \u0438\u0441\u0445\u043e\u0434\u043d\u0438\u043a\u043e\u0432, \u044d\u0442\u043e \u0434\u043b\u044f \u0440\u0430\u0437\u0440\u0430\u0431\u043e\u0442\u0447\u0438\u043a\u043e\u0432 \u044f\u0434\u0435\u0440):# \u0441\u043a\u0430\u0447\u0430\u0442\u044c \u043e\u0431\u0430.whl \u0438\u0437\u00a0\u0440\u0435\u043b\u0438\u0437\u0430mkdir \u2011p ~\/wheels &amp;&amp; cd ~\/wheelscurl \u2011s https:\/\/api.github.com\/repos\/1CatAI\/1Cat\u2011vLLM\/releases\/latest \\| grep browser_download_url | cut \u2011d &#8216;\u201c&#8217; \u2011f4\u00a0| xargs \u2011n1\u00a0wget\u201d# \u043f\u043e\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0432\u00a0conda\u2011\u0441\u0440\u0435\u0434\u0435python \u2011m pip install \u2011prefer\u2011binary \u2011no\u2011cache\u2011dir \\\u2011extra\u2011index\u2011url https:\/\/download.pytorch.org\/whl\/cu128 \\\/flash_attn_v100-*.whl.\/vllm\u2011*.whl\u041a\u043e\u043b\u0451\u0441\u0430 \u0442\u044f\u043d\u0443\u0442 torch \u043f\u043e\u0434 CUDA 12.8 \u2014 \u044d\u0442\u043e \u0441\u043e\u0432\u043c\u0435\u0441\u0442\u0438\u043c\u043e \u0441 \u0440\u0430\u043d\u0442\u0430\u0439\u043c-\u0434\u0440\u0430\u0439\u0432\u0435\u0440\u043e\u043c 580\/CUDA 13, \u0434\u043e\u0443\u0441\u0442\u0430\u043d\u0430\u0432\u043b\u0438\u0432\u0430\u0442\u044c toolkit \u043d\u0435 \u043d\u0443\u0436\u043d\u043e.\u041f\u043e\u0447\u0435\u043c\u0443 \u0438\u043c\u0435\u043d\u043d\u043e AWQ, \u0430 \u043d\u0435 \u043e\u0431\u044b\u0447\u043d\u044b\u0439 4-\u0431\u0438\u0442\u043d\u044b\u0439 GPTQ\u042d\u0442\u043e \u043d\u0435 \u0432\u043e\u043f\u0440\u043e\u0441 \u0432\u043a\u0443\u0441\u0430 \u2014 \u0444\u043e\u0440\u043c\u0430\u0442 \u043a\u0432\u0430\u043d\u0442\u0438\u0437\u0430\u0446\u0438\u0438 \u0434\u0438\u043a\u0442\u0443\u0435\u0442 \u0441\u0430\u043c\u043e \u0436\u0435\u043b\u0435\u0437\u043e. \u041d\u0430 Volta (sm_70) \u0431\u043e\u043b\u044c\u0448\u0438\u043d\u0441\u0442\u0432\u043e \u0441\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0445 4-\u0431\u0438\u0442\u043d\u044b\u0445 \u0441\u0445\u0435\u043c \u043f\u0440\u043e\u0441\u0442\u043e \u043d\u0435 \u0437\u0430\u043f\u0443\u0441\u043a\u0430\u0435\u0442\u0441\u044f:- GPTQ-Int4 \u0447\u0435\u0440\u0435\u0437 Marlin-\u044f\u0434\u0440\u0430 \u0442\u0440\u0435\u0431\u0443\u0435\u0442 sm_80+ (Ampere \u0438 \u043d\u043e\u0432\u0435\u0435). \u041d\u0430 V100 \u044d\u0442\u0438 \u044f\u0434\u0440\u0430 \u043d\u0435 \u043a\u043e\u043c\u043f\u0438\u043b\u0438\u0440\u0443\u044e\u0442\u0441\u044f \u0438 \u043d\u0435 \u0438\u0441\u043f\u043e\u043b\u043d\u044f\u044e\u0442\u0441\u044f \u2014 \u0441\u0442\u0430\u043d\u0434\u0430\u0440\u0442\u043d\u044b\u0439 \u00ab\u0431\u044b\u0441\u0442\u0440\u044b\u0439\u00bb \u043f\u0443\u0442\u044c GPTQ \u0434\u043b\u044f \u043d\u0430\u0441 \u0437\u0430\u043a\u0440\u044b\u0442.- FP8-\u0432\u044b\u0447\u0438\u0441\u043b\u0435\u043d\u0438\u044f \u2014 \u044d\u0442\u043e \u0432\u043e\u043e\u0431\u0449\u0435 Hopper (sm_90). \u041d\u0430 Volta \u0438\u0437 FP8 \u0434\u043e\u0441\u0442\u0443\u043f\u0435\u043d \u0442\u043e\u043b\u044c\u043a\u043e \u0444\u043e\u0440\u043c\u0430\u0442 e5m2 \u0434\u043b\u044f KV-\u043a\u044d\u0448\u0430, \u0438 \u0442\u043e \u0441 \u043e\u0433\u043e\u0432\u043e\u0440\u043a\u0430\u043c\u0438.- GPTQ-Int8 \u0437\u0430\u0432\u043e\u0434\u0438\u0442\u0441\u044f, \u043d\u043e 8 \u0431\u0438\u0442 \u043d\u0430 \u0432\u0435\u0441 \u043e\u0437\u043d\u0430\u0447\u0430\u044e\u0442 \u0432\u0434\u0432\u043e\u0435 \u0431\u043e\u043b\u044c\u0448\u0438\u0439 \u0440\u0430\u0437\u043c\u0435\u0440: 27B-\u043c\u043e\u0434\u0435\u043b\u044c \u0432 Int8 \u0432\u0435\u0441\u0438\u0442 ~50+ \u0413\u0411 \u0438 \u043d\u0435 \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0434\u0430\u0436\u0435 \u0431\u043b\u0438\u0437\u043a\u043e \u0432 32 \u0413\u0411 \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e\u0439 VRAM.\u041e\u0441\u0442\u0430\u0451\u0442\u0441\u044f AWQ 4-bit \u2014 \u0438 \u0438\u043c\u0435\u043d\u043d\u043e \u0435\u0433\u043e \u00ab\u043e\u0436\u0438\u0432\u043b\u044f\u0435\u0442\u00bb \u0444\u043e\u0440\u043a 1Cat-vLLM: \u043e\u043d \u0438\u043d\u0442\u0435\u0433\u0440\u0438\u0440\u0443\u0435\u0442 TurboMind SM70 WMMA-\u044f\u0434\u0440\u0430 \u0438 \u0440\u0430\u0441\u0448\u0438\u0440\u044f\u0435\u0442 AWQ-\u0441\u043b\u043e\u0438 vLLM \u0442\u0430\u043a, \u0447\u0442\u043e\u0431\u044b 4-\u0431\u0438\u0442\u043d\u044b\u0439 AWQ \u0438\u0441\u043f\u043e\u043b\u043d\u044f\u043b\u0441\u044f \u043d\u0430 Volta. \u041f\u043e \u0441\u0443\u0442\u0438 \u044d\u0442\u043e \u0435\u0434\u0438\u043d\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439 4-\u0431\u0438\u0442\u043d\u044b\u0439 \u0444\u043e\u0440\u043c\u0430\u0442, \u043a\u043e\u0442\u043e\u0440\u044b\u0439 \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 V100.\u0411\u043e\u043d\u0443\u0441\u043e\u043c AWQ-4bit \u0443\u0436\u0438\u043c\u0430\u0435\u0442 27B \u0434\u043e ~21 \u0413\u0411 \u2014 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u0442\u0430\u043a\u043e\u043c \u0432\u0438\u0434\u0435 \u043c\u043e\u0434\u0435\u043b\u044c \u0432\u043e\u043e\u0431\u0449\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u0435\u0442\u0441\u044f \u0432 2\u00d716 \u0413\u0411. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u0432\u0435\u0441\u044c \u043f\u043e\u0438\u0441\u043a \u043c\u043e\u0434\u0435\u043b\u0435\u0439 \u0448\u0451\u043b \u043f\u043e \u043f\u0440\u043e\u0441\u0442\u043e\u043c\u0443 \u043f\u0440\u0430\u0432\u0438\u043b\u0443: Volta \u2192 \u0442\u043e\u043b\u044c\u043a\u043e AWQ-4bit \u0447\u0435\u0440\u0435\u0437 1Cat-\u0444\u043e\u0440\u043a \u2192 \u0438\u0449\u0435\u043c AWQ-\u0441\u0431\u043e\u0440\u043a\u0438 \u043d\u0443\u0436\u043d\u044b\u0445 \u043c\u043e\u0434\u0435\u043b\u0435\u0439 (\u043d\u0430\u043f\u0440\u0438\u043c\u0435\u0440, \u043e\u0442 QuantTrio). \u0413\u0440\u0430\u0431\u043b\u0438 \u043f\u043e \u043c\u0435\u043b\u043e\u0447\u0438 (\u043d\u0430 \u043a\u043e\u0442\u043e\u0440\u044b\u0445 \u043b\u0435\u0433\u043a\u043e \u0437\u0430\u0441\u0442\u0440\u044f\u0442\u044c)- \u041c\u0430\u043b\u043e RAM \u0443 VM. vLLM \u043f\u043e \u0443\u043c\u043e\u043b\u0447\u0430\u043d\u0438\u044e \u0440\u0435\u0437\u0435\u0440\u0432\u0438\u0440\u0443\u0435\u0442 4 \u0413\u0411 swap \u043d\u0430 \u043a\u0430\u0440\u0442\u0443. \u0415\u0441\u043b\u0438 \u0443 VM \u0432\u0441\u0435\u0433\u043e 8 \u0413\u0411 RAM \u2014 \u043f\u0430\u0434\u0430\u0435\u0442 \u0441 \u00abToo large swap space\u00bb. \u0414\u0430\u0439\u0442\u0435 VM 24+ \u0413\u0411.- fp8e4nv not supported. Volta \u0443\u043c\u0435\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e FP8-\u0444\u043e\u0440\u043c\u0430\u0442 e5m2. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 KV-\u043a\u044d\u0448 \u0432 FP8 \u0432\u043a\u043b\u044e\u0447\u0430\u0435\u0442\u0441\u044f \u0442\u0430\u043a: &#8212;kv-cache-dtype fp8_e5m2 (\u043d\u0435 \u043f\u0440\u043e\u0441\u0442\u043e fp8).- No valid cudagraph sizes (\u043a\u0440\u0430\u0442\u043d\u043e\u0441\u0442\u044c 5). \u041a\u043e\u0433\u0434\u0430 \u0432\u043a\u043b\u044e\u0447\u0451\u043d \u0432\u0441\u0442\u0440\u043e\u0435\u043d\u043d\u044b\u0439 MTP (num_speculative_tokens=4), CUDA-\u0433\u0440\u0430\u0444\u044b \u0434\u043e\u043b\u0436\u043d\u044b \u0437\u0430\u0445\u0432\u0430\u0442\u044b\u0432\u0430\u0442\u044c\u0441\u044f \u0440\u0430\u0437\u043c\u0435\u0440\u0430\u043c\u0438 \u043a\u0440\u0430\u0442\u043d\u044b\u043c\u0438 5. \u0421\u0442\u0430\u0432\u044c\u0442\u0435 &#8212;compilation-config &#8216;{&#171;cudagraph_mode&#187;:&#187;full_and_piecewise&#187;,&#187;cudagraph_capture_sizes&#187;:[5]}&#8217; \u0438\u043b\u0438 \u043e\u0442\u043a\u043b\u044e\u0447\u0438\u0442\u0435 MTP.- Tool calling. Hermes \u0448\u043b\u0451\u0442 tool_choice: auto, \u043f\u043e\u044d\u0442\u043e\u043c\u0443 \u0441\u0435\u0440\u0432\u0435\u0440 \u043d\u0430\u0434\u043e \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u0442\u044c \u0441 &#8212;enable-auto-tool-choice &#8212;tool-call-parser qwen3_coder &#8212;reasoning-parser qwen3.\u0410\u0440\u0445\u0438\u0442\u0435\u043a\u0442\u0443\u0440\u043d\u044b\u0439 \u0441\u044e\u0440\u043f\u0440\u0438\u0437: \u043f\u043e\u0447\u0435\u043c\u0443 65k \u0432\u043e\u043e\u0431\u0449\u0435 \u0432\u043b\u0435\u0437\u0430\u044e\u0442Qwen3.6-27B \u2014 \u0433\u0438\u0431\u0440\u0438\u0434. \u0418\u0437 64 \u0441\u043b\u043e\u0451\u0432 \u0442\u043e\u043b\u044c\u043a\u043e 16 \u0438\u043c\u0435\u044e\u0442 \u043e\u0431\u044b\u0447\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435 \u0441 \u0440\u0430\u0441\u0442\u0443\u0449\u0438\u043c KV-\u043a\u044d\u0448\u0435\u043c, \u043e\u0441\u0442\u0430\u043b\u044c\u043d\u044b\u0435 48 \u2014 Gated DeltaNet (\u043b\u0438\u043d\u0435\u0439\u043d\u043e\u0435 \u0432\u043d\u0438\u043c\u0430\u043d\u0438\u0435), \u0443 \u043a\u043e\u0442\u043e\u0440\u043e\u0433\u043e \u043a\u044d\u0448 \u043d\u0435 \u0440\u0430\u0441\u0442\u0451\u0442 \u0441 \u0434\u043b\u0438\u043d\u043e\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430. \u041f\u043e\u044d\u0442\u043e\u043c\u0443 \u043f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u0434\u043b\u0438\u043d\u043d\u044b\u0439 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 \u0443 \u043d\u0435\u0451 \u0432 \u0440\u0430\u0437\u044b \u043c\u0435\u043d\u044c\u0448\u0435, \u0447\u0435\u043c \u0443 \u043e\u0431\u044b\u0447\u043d\u043e\u0439 dense-\u043c\u043e\u0434\u0435\u043b\u0438, \u0438 65k \u0432 \u043f\u0440\u0438\u043d\u0446\u0438\u043f\u0435 \u0434\u043e\u0441\u0442\u0438\u0436\u0438\u043c\u044b \u0434\u0430\u0436\u0435 \u043d\u0430 32 \u0413\u0411 \u0441\u0443\u043c\u043c\u0430\u0440\u043d\u043e\u0439 VRAM.\u0427\u0442\u043e \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442 \u043d\u0430 2\u00d7V100-16GB\u041f\u043e\u0441\u043b\u0435 \u0432\u0441\u0435\u0445 \u0433\u0440\u0430\u0431\u043b\u0435\u0439 \u043c\u044b \u043f\u043e\u043b\u0443\u0447\u0438\u043b\u0438 \u0440\u0430\u0431\u043e\u0447\u0443\u044e \u043a\u043e\u043d\u0444\u0438\u0433\u0443\u0440\u0430\u0446\u0438\u044e: vLLM \u043f\u043e\u0434\u043d\u0438\u043c\u0430\u0435\u0442\u0441\u044f, \u043e\u0442\u0432\u0435\u0447\u0430\u0435\u0442 \u043f\u043e \u0441\u0435\u0442\u0438, Hermes \u0445\u043e\u0434\u0438\u0442, tool-calls \u043f\u0440\u043e\u0445\u043e\u0434\u044f\u0442, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 65k. \u0426\u0435\u043d\u0430 \u2014 \u043e\u0442\u043a\u043b\u044e\u0447\u0451\u043d\u043d\u044b\u0439 prefix caching (\u043e\u0431 \u044d\u0442\u043e\u043c \u043d\u0438\u0436\u0435).CUDA_VISIBLE_DEVICES=0,1 \\VLLM_DISABLE_PYNCCL=1 \\VLLM_1CAT_DISABLE_QWEN35_MTP_DEFAULTS=1 \\python -m vllm.entrypoints.openai.api_server \\\u00a0 &#8212;model ~\/models\/Qwen3.6-27B-AWQ \\\u00a0 &#8212;served-model-name qwen36 \\\u00a0 &#8212;tensor-parallel-size 2 \\\u00a0 &#8212;dtype float16 \\\u00a0 &#8212;kv-cache-dtype fp8_e5m2 \\\u00a0 &#8212;gpu-memory-utilization 0.92 \\\u00a0 &#8212;max-model-len 65536 \\\u00a0 &#8212;max-num-seqs 1 \\\u00a0 &#8212;max-num-batched-tokens 512 \\\u00a0 &#8212;trust-remote-code \\\u00a0 &#8212;attention-backend TRITON_ATTN \\\u00a0 &#8212;disable-custom-all-reduce \\\u00a0 &#8212;skip-mm-profiling \\\u00a0 &#8212;limit-mm-per-prompt &#8216;{&#171;image&#187;:0,&#187;video&#187;:0}&#8217; \\\u00a0 &#8212;enable-auto-tool-choice \\\u00a0 &#8212;tool-call-parser qwen3_coder \\\u00a0 &#8212;reasoning-parser qwen3 \\\u00a0 &#8212;compilation-config &#8216;{&#171;cudagraph_mode&#187;:&#187;full_and_piecewise&#187;,&#187;cudagraph_capture_sizes&#187;:[1]}&#8217; \\\u00a0 &#8212;host 0.0.0.0 &#8212;port 8000\u041f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u0438 \u0442\u0435\u0441\u0442\u0430:curl -s http:\/\/127.0.0.1:8000\/v1\/models | python3 -m json.tool \u00a0 # max_model_lencurl http:\/\/127.0.0.1:8000\/v1\/chat\/completions -H &#8216;Content-Type: application\/json&#8217; \\\u00a0 -d &#8216;{&#171;model&#187;:&#187;qwen36&#8243;,&#187;messages&#187;:[{&#171;role&#187;:&#187;user&#187;,&#187;content&#187;:&#187;\u041f\u0440\u0438\u0432\u0435\u0442!&#187;}],&#187;max_tokens&#187;:100}&#8217;\u0420\u0435\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u043e\u043a\u0430\u0437\u0430\u0442\u0435\u043b\u0438: \u0434\u0435\u043a\u043e\u0434 ~45 \u0442\u043e\u043a\/\u0441, \u043e\u0431\u0435 \u043a\u0430\u0440\u0442\u044b \u043f\u043e\u0434 \u043d\u0430\u0433\u0440\u0443\u0437\u043a\u043e\u0439. \u041c\u0438\u043d\u0443\u0441 \u2014 \u043a\u0430\u0436\u0434\u044b\u0439 \u0445\u043e\u0434 \u0430\u0433\u0435\u043d\u0442 \u0437\u0430\u043d\u043e\u0432\u043e \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u0442 \u0432\u0435\u0441\u044c \u043f\u0440\u043e\u043c\u043f\u0442 (\u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 prefill), \u043f\u043e\u0442\u043e\u043c\u0443 \u0447\u0442\u043e \u043a\u044d\u0448 \u043e\u0442\u043a\u043b\u044e\u0447\u0451\u043d.\u0413\u0434\u0435 \u0441\u0442\u0435\u043d\u0430: 65k + prefix caching \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e \u043d\u0435 \u0432\u044b\u0445\u043e\u0434\u0438\u0442\u041b\u043e\u0433\u0438\u0447\u043d\u044b\u0439 \u0448\u0430\u0433 \u2014 \u0432\u043a\u043b\u044e\u0447\u0438\u0442\u044c prefix caching, \u0447\u0442\u043e\u0431\u044b \u0441\u0442\u0430\u0442\u0438\u0447\u043d\u044b\u0439 \u0441\u0438\u0441\u0442\u0435\u043c\u043d\u044b\u0439 \u043f\u0440\u043e\u043c\u043f\u0442 + 60 \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442\u043e\u0432 Hermes \u043d\u0435 \u043f\u0435\u0440\u0435\u0441\u0447\u0438\u0442\u044b\u0432\u0430\u043b\u0438\u0441\u044c \u043a\u0430\u0436\u0434\u044b\u0439 \u0445\u043e\u0434. \u041d\u043e \u043d\u0430 2 \u043a\u0430\u0440\u0442\u0430\u0445 \u044d\u0442\u043e \u043d\u0435 \u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u0438 \u0432\u043e\u0442 \u043f\u043e\u0447\u0435\u043c\u0443.Prefix caching \u043d\u0430 \u044d\u0442\u043e\u0439 \u0433\u0438\u0431\u0440\u0438\u0434\u043d\u043e\u0439 \u043c\u043e\u0434\u0435\u043b\u0438 \u0444\u0443\u043d\u043a\u0446\u0438\u043e\u043d\u0438\u0440\u0443\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u0432 \u043f\u0430\u0440\u0435 \u0441 &#8212;mamba-cache-mode align. \u0410 align-\u0440\u0435\u0436\u0438\u043c \u0434\u043e\u0431\u0430\u0432\u043b\u044f\u0435\u0442 \u043f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u0432\u044b\u0440\u043e\u0432\u043d\u0435\u043d\u043d\u044b\u0439 \u043a\u044d\u0448 Gated DeltaNet. \u0412 \u0441\u0443\u043c\u043c\u0435 \u00ab\u0432\u0435\u0441\u0430 21 \u0413\u0411 + 65k KV + align-\u0431\u0443\u0444\u0435\u0440\u044b + \u0432\u0440\u0435\u043c\u0435\u043d\u043d\u044b\u0435 \u0431\u0443\u0444\u0435\u0440\u044b GDN-\u044f\u0434\u0440\u0430\u00bb \u043d\u0435 \u043f\u043e\u043c\u0435\u0449\u0430\u044e\u0442\u0441\u044f \u0432 32 \u0413\u0411. \u0421\u0435\u0440\u0432\u0435\u0440 \u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 (\u043f\u0440\u043e\u0432\u0435\u0440\u043a\u0430 KV \u043f\u0440\u043e\u0445\u043e\u0434\u0438\u0442), \u043d\u043e \u043f\u0430\u0434\u0430\u0435\u0442 \u043d\u0430 \u043f\u0435\u0440\u0432\u043e\u043c \u0436\u0435 \u0437\u0430\u043f\u0440\u043e\u0441\u0435 \u0432 \u044f\u0434\u0440\u0435 chunk_gated_delta_rule:RuntimeError: Triton Error [CUDA]: out of memory\u041c\u044b \u043f\u0440\u043e\u0432\u0435\u0440\u0438\u043b\u0438 \u044d\u0442\u043e \u043f\u0440\u0438 gpu-memory-utilization 0.95 \u0438 0.88, \u0441 \u0440\u0430\u0437\u043d\u044b\u043c \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u043e\u043c \u2014 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442 \u043e\u0434\u0438\u043d. \u041d\u0430 2\u00d716GB \u0447\u0435\u0441\u0442\u043d\u043e \u043d\u0435\u0432\u043e\u0437\u043c\u043e\u0436\u043d\u043e \u0438\u043c\u0435\u0442\u044c \u043e\u0434\u043d\u043e\u0432\u0440\u0435\u043c\u0435\u043d\u043d\u043e 65k \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442\u0430 \u0438 \u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0449\u0438\u0439 prefix cache. \u0422\u0440\u0438 \u0434\u043e\u0441\u0442\u0443\u043f\u043d\u044b\u0445 \u0440\u0435\u0436\u0438\u043c\u0430:\u0420\u0435\u0436\u0438\u043c 65k?Prefix cache?\u0418\u0442\u043e\u0433 65k \u0431\u0435\u0437 \u043a\u044d\u0448\u0430 (fp8, \u0431\u0435\u0437 align\/MTP)  \u0434\u0430\u043d\u0435\u0442\u0440\u0430\u0431\u043e\u0442\u0430\u0435\u0442, \u043d\u043e \u043c\u0435\u0434\u043b\u0435\u043d\u043d\u044b\u0439 prefill \u041a\u044d\u0448 + align, \u043a\u043e\u043d\u0442\u0435\u043a\u0441\u0442 &lt;65k \u043d\u0435\u0442\u0434\u0430 Hermes \u043d\u0435 \u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 (\u043d\u0443\u0436\u0435\u043d \u043c\u0438\u043d\u0438\u043c\u0443\u043c 64k)  65k + align\u0441\u0442\u0430\u0440\u0442\u0443\u0435\u0442 \u0434\u0430 \u043f\u0430\u0434\u0430\u0435\u0442 \u0432 \u0440\u0430\u043d\u0442\u0430\u0439\u043c\u0435 (OOM \u0432 GDN) \u0420\u0430\u0437\u0432\u0438\u043b\u043a\u0430 \u0438 \u0440\u0435\u0448\u0435\u043d\u0438\u044f\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0410 \u2014 \u0436\u0438\u0442\u044c \u0441 \u0442\u0435\u043c, \u0447\u0442\u043e \u0435\u0441\u0442\u044c. Qwen3.6-27B \u043d\u0430 65k \u0431\u0435\u0437 \u043a\u044d\u0448\u0430. \u041f\u043e\u043b\u043d\u043e\u0441\u0442\u044c\u044e \u0440\u0430\u0431\u043e\u0447\u0438\u0439 \u0430\u0433\u0435\u043d\u0442, \u043f\u0440\u043e\u0441\u0442\u043e \u043f\u0435\u0440\u0432\u044b\u0439 \u0442\u043e\u043a\u0435\u043d \u043a\u0430\u0436\u0434\u043e\u0433\u043e \u0445\u043e\u0434\u0430 \u0438\u0434\u0451\u0442 \u0447\u0435\u0440\u0435\u0437 \u043f\u043e\u043b\u043d\u044b\u0439 prefill (\u043d\u0430 x8 PCIe \u044d\u0442\u043e \u043e\u0449\u0443\u0442\u0438\u043c\u043e).\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0411 \u2014 \u0432\u0437\u044f\u0442\u044c \u043c\u043e\u0434\u0435\u043b\u044c \u043f\u043e\u043c\u0435\u043d\u044c\u0448\u0435. \u041f\u0430\u043c\u044f\u0442\u044c \u043f\u043e\u0434 \u043a\u044d\u0448 \u043e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u0435\u0442 \u0442\u043e\u043b\u044c\u043a\u043e \u043c\u0435\u043d\u044c\u0448\u0435\u0435 \u0447\u0438\u0441\u043b\u043e \u043f\u0430\u0440\u0430\u043c\u0435\u0442\u0440\u043e\u0432 (MoE-\u043c\u043e\u0434\u0435\u043b\u0438 \u0441 A3B \u0432\u0435\u0441\u044f\u0442 \u043a\u0430\u043a \u043f\u043e\u043b\u043d\u0430\u044f \u043c\u043e\u0434\u0435\u043b\u044c \u2014 \u0434\u043b\u044f \u043f\u0430\u043c\u044f\u0442\u0438 \u043d\u0435 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442). \u041e\u0442\u043b\u0438\u0447\u043d\u044b\u0439 \u043a\u0430\u043d\u0434\u0438\u0434\u0430\u0442 \u2014 Qwen3.5-9B-AWQ (~6 \u0413\u0411): \u0432\u043b\u0435\u0437\u0430\u0435\u0442 \u0441 \u043e\u0433\u0440\u043e\u043c\u043d\u044b\u043c \u0437\u0430\u043f\u0430\u0441\u043e\u043c, \u0438 65k + prefix cache + MTP \u0440\u0435\u0430\u043b\u044c\u043d\u043e \u0437\u0430\u0440\u0430\u0431\u043e\u0442\u0430\u044e\u0442. \u0426\u0435\u043d\u0430 \u2014 \u043a\u0430\u0447\u0435\u0441\u0442\u0432\u043e 9B \u0432\u043c\u0435\u0441\u0442\u043e 27B.CUDA_VISIBLE_DEVICES=0,1 VLLM_DISABLE_PYNCCL=1 \\python -m vllm.entrypoints.openai.api_server \\\u00a0 &#8212;model ~\/models\/Qwen3.5-9B-AWQ &#8212;served-model-name qwen35-9b \\\u00a0 &#8212;tensor-parallel-size 2 &#8212;dtype float16 \\\u00a0 &#8212;gpu-memory-utilization 0.90 &#8212;max-model-len 65536 \\\u00a0 &#8212;enable-prefix-caching \\\u00a0 &#8212;trust-remote-code &#8212;attention-backend TRITON_ATTN &#8212;disable-custom-all-reduce \\\u00a0 &#8212;skip-mm-profiling &#8212;limit-mm-per-prompt &#8216;{&#171;image&#187;:0,&#187;video&#187;:0}&#8217; \\\u00a0 &#8212;enable-auto-tool-choice &#8212;tool-call-parser qwen3_coder &#8212;reasoning-parser qwen3 \\\u00a0 &#8212;host 0.0.0.0 &#8212;port 8000\u0412\u0430\u0440\u0438\u0430\u043d\u0442 \u0412 \u2014 3-\u044f \u043a\u0430\u0440\u0442\u0430. \u0421 pipeline-\u043f\u0430\u0440\u0430\u043b\u043b\u0435\u043b\u0438\u0437\u043c\u043e\u043c (&#8212;pipeline-parallel-size 3 &#8212;tensor-parallel-size 1) \u0432\u0435\u0441\u0430 21 \u0413\u0411 \u0440\u0430\u0437\u043c\u0430\u0437\u044b\u0432\u0430\u044e\u0442\u0441\u044f \u043f\u043e ~7 \u0413\u0411 \u043d\u0430 \u043a\u0430\u0440\u0442\u0443, \u043e\u0441\u0432\u043e\u0431\u043e\u0436\u0434\u0430\u044f&#8230;<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[],"tags":[],"class_list":["post-482485","post","type-post","status-publish","format-standard","hentry"],"_links":{"self":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/482485","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=482485"}],"version-history":[{"count":0,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=\/wp\/v2\/posts\/482485\/revisions"}],"wp:attachment":[{"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=482485"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=482485"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/savepearlharbor.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=482485"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}