Дело на вечер: собираем домашний ИИ-сервер

Конечно, можно купить готовый (за ~1.3 млн. руб. есть неплохие варианты), но нам ведь главное процесс, ведь так? К тому же, не все готовы выложить такую сумму за возможность запускать дома нейронку. Итак, что нам пригодится, чтобы влезть в бюджет до 400 тыс. руб.:

корпус или рама, например, такая (~7 тыс. руб.):

мат. плата + процессор + память (от 64 Гб, лучше 128 Гб, б/у — хороший вариант)
видеокарты, допустим 4 шт. по 24 Гб (например, AMD RX 7900 XTX по ~75 тыс. руб. на вторичке):

AMD RX 7900 XTX
парочка блоков питания по ~1.2 кВт
синхронизатор блоков питания (небольшая платка, чтобы блоки питания стартовали одновременно)
райзеры для подключения видеокарт (бывают разные, сойдут и USB-варианты, но мы будем использовать в виде шлейфов pcie x16):

Райзер pcie x16

сплиттер pcie x16 на 2 по x8 или 4 по x4 (у нас ведь нет 4-х разъёмов pcie на плате, ведь так?); помните, что BIOS мат. платы должен поддерживать соответствующий режим бифуркации!

Сплиттер pcie x16 на 4 по x4
SSD/HDD по вкусу, но лучше не меньше чем на 1 TB
не забываем про кабели для БП (часто на БП есть выходы под новомодные 12VHPWR, но не во все видеокарты можно воткнуть такой провод — ищите 12VHPWR to 3 x 2x8pin reverse cable, если у вас на видеокарте разъёмы 2x8pin)
корзина для дисков, если хочется шикануть; настоящие diy-еры могут спроектировать свою:

Корзина для дисков 2.5″ (модуль)

Что получаем по итогу? Судите сами:

Топовый домашний сервер для запуска LLM массой ~10 кг

Что по софту?

ОС: Ubuntu 26 server + KDE plasma + головняк с установкой GUI на server-версию ОС

Запуск LLM: сервис на базе llama.cpp (rocm* и vulkan под капотом работают приблизительно одинаково для видеокарт AMD; vulkan чуть быстрее); можно поставить docker и запустить local AI, где удобно крутить всякое-разное, а не только LLM.

* ROCM — это аналог NVIDIA/CUDA, но для видеокарт от AMD; сейчас усиленно развивается, но пока не дотягивает до лидера; уже поддерживается много где, но не всегда успешно 🙂

Практический тест: qwen3.6-27b в квантовании Q8 с контекстом в 250 тыс. токенов со встроенным MTP (это небольшая draft-модель внутри основной модели, позволяющая делать вычисления наперёд и ускоряющая работу в ~2 раза) выдаёт ~30 токенов в секунду (~7 русских слов). Этого достаточно для комфортного использования как в виде чат-бота, так и для агента (здравствуй, вайб-кодинг).

Если бюджет резиновый

GPU на таком сервере у нас будут работать последовательно. Почему? Для одновременной работы видеокарт (tensor parallelism) нужен очень быстрый обмен данными между видеокартами. А здесь у нас два варианта — либо иметь систему с несколькими линиями pcie x16 (ищи серверные процессоры со 128 линиями pcie, например, модели AMD Threadripper), либо иметь серверные видеокарты, которые имеют отдельные мостики для подключения друг к другу (например, AMD Instinct).

Если вы любите страдать

Существует софт, оптимизированный под запуск LLM (вместо llama.cpp). Например, vllm. Заставить его работать на потребительских видеокартах от AMD — проще простого (нет). А ведь мы не ищем лёгких путей. Поэтому, пусть всё же будет llama.cpp.

Что в итоге?

Сервер крутится, программировать помогает. А что ещё нужно для счастья простому программисту? 🙂

P.S. если купите такую раму и pcie x16 райзеры — понадобится болгарка или хотя бы хорошие ножницы по металлу. Не говорите, что я вас не предупреждал.

ссылка на оригинал статьи https://habr.com/ru/articles/1053612/