В третьей части обзора посмотрим на что способна Tesla V100 в работе с современными локальными моделями ИИ. Сравним ее с более современными серверными ускорителями и видеокартами по вычислительной мощности. Проверим какие модели ИИ она способна запустить в LM Studio и протестируем их.
Сравнение производительности Tesla V100 с современными серверными ускорителями и видеокартами
NVIDIA Tesla V100 стала первым массовым серверным ускорителем с интегрированными тензорными ядрами, что в 2017 году ознаменовало революцию в сфере обучения нейронных сетей. Данный ускоритель стал стандартом для индустрии и активно использовался при разработке прорывных моделей того времени, таких как GPT-2 (хотя финальная версия этой модели обучалась на TPU). Рост сложности моделей ИИ и объемов данных со временем требовал увеличения мощности и объема быстрой памяти, что напрямую стимулировало прогресс в разработке аппаратных ускорителей. Ниже приведена таблица для сравнения вычислительной мощности Tesla V100 с более современными серверными ускорителями и видеокартами NVIDIA.
|
Модель |
Год |
Пиковая вычислительная мощность в зависимости от формата представления чисел с плавающей запятой (Floating Point), TFLOPS |
Тип и объем памяти, Гб |
|||||
|
FP64 |
FP32 |
TF32 Tensor |
FP16/BF16 Tensor |
FP8 Tensor |
FP4 Tensor Dense |
|||
|---|---|---|---|---|---|---|---|---|
|
V100 |
2017 |
7.8 |
15.7 |
— |
125 |
— |
— |
16/32 HBM2 |
|
A100 |
2020 |
9.7 |
19.5 |
312 |
624 |
— |
— |
40/80 HBM2/HBM2e |
|
H100 |
2022 |
34 |
67 |
989 |
1979 |
3958 |
— |
80/96 HBM2e/HBM3 |
|
H200 |
2024 |
34 |
67 |
989 |
1979 |
3958 |
— |
141 HBM3e |
|
B200 |
2025 |
37 |
75 |
2200 |
4500 |
9000 |
9000 |
180/192 HBM3e |
|
B300 |
2025 |
1.2 |
75 |
2200 |
4500 |
9000 |
15000 |
288 HBM3e |
|
RTX 4070 |
2023 |
— |
29 |
— |
117 |
233 |
— |
12 GDDR6X |
|
RTX 4080 |
2022 |
— |
49 |
— |
195 |
390 |
— |
16 GDDR6X |
|
RTX 4090 |
2022 |
— |
83 |
— |
330 |
660 |
— |
24 GDDR6X |
|
RTX 5070 |
2025 |
— |
31 |
— |
123 |
247 |
494 |
12 GDDR7 |
|
RTX 5080 |
2025 |
— |
56 |
— |
225 |
450 |
900 |
16 GDDR7 |
|
RTX 5090 |
2025 |
— |
105 |
— |
419 |
838 |
1676 |
32 GDDR7 |
Из-за отсутствия поддержки современных форматов (FP8/FP4), прямое сравнение по мощности с современными картами возможно лишь в форматах FP16 и FP32. Если взять наиболее универсальный формат данных для LLM — FP16, то более современные серверные ускорители существенно опережают Tesla V100 по вычислительной мощности, а ее главные конкуренты — видеокарты RTX 4070 и RTX 5070. Однако близкие показатели TFLOPS не всегда означают одинаковую скорость вычислений. Tesla V100 использует старые тензорные ядра 1-го поколения, в то время как RTX 4070 и RTX 5070 имеют гораздо более эффективные ядра 4-го и 5-го поколений. Они выполняют операции над матрицами значительно быстрее. Однако в задачах, ограниченных памятью, Tesla V100 выигрывает за счёт высокой пропускной способности HBM2 ~900 ГБ/с, тогда как у RTX 4070 пропускная способность GDDR6X ~504 ГБ/с, а у RTX 5070 ~672 ГБ/с.
Для оценки средней вычислительной мощности CUDA и тензорных ядер я запустил скрипт, написанный на Python с использованием библиотеки PyTorch, который измеряет производительность матричного умножения (GEMM).
Этот тест напрямую нагружает ядра GPU: в режиме FP32 работают CUDA-ядра, а в режиме FP16 — тензорные ядра.
Результат теста:

Реальная средняя вычислительная мощность Tesla V100 в форматах FP32 и FP16 несколько ниже пиковых значений из вышеприведенной таблицы — 15.7 и 125 TFLOPS.
LM Studio: запуск, тестирование и варианты использования локальных моделей ИИ
Запуск и тестирование локальных моделей ИИ
Для запуска LLM я использовал программу LM Studio. Список выбранных моделей приведен в таблице ниже:
|
Полное название модели |
Издатель |
Параметры, млрд |
Тип квантования |
Размер, Гб |
|
Qwen3.6-35b-a3b |
unsloth |
35 для обучения, 3 активных |
Q2_K_XL |
13,11 |
|
Qwen3.6-35b-a3b-mtp |
unsloth |
35 для обучения, 3 активных |
Q2_K_XL |
13,37 |
|
Qwen3.6-35b-a3b |
qwen |
35 для обучения, 3 активных |
Q4_K_M |
20,55 |
|
GPT-OSS-20B |
openai |
20 |
MXFP4 |
11,28 |
|
Gemma-4-e4b |
|
4 эффективных |
Q8_0 |
8,4 |
Все представленные модели ИИ в формате GGUF. GGUF (GPT-Generated Unified Format) — это современный бинарный формат файлов для хранения и эффективного запуска больших языковых моделей (LLM) на центральных процессорах (CPU) и видеокартах (GPU). Он разработан специально для llama.cpp и совместим с Tesla V100.
В список я добавил две модели Qwen3.6-35b-a3b с одинаковым квантованием Q2_K_XL, но одна из них поддерживает спекулятивное декодирование MTP. MTP (Multi-Token Prediction) — это метод ускорения генерации текста языковыми моделями, позволяющий модели предсказывать сразу несколько следующих токенов за один проход, вместо одного. MTP позволяет генерировать текст в 1.5–2 раза быстрее без потери качества ответов. В LM Studio перед загрузкой модели MTP в память GPU нужно обязательно активировать опцию MTP Speculative Decoding в расширенных настройках.

Перед началом тестирования, привожу список основных компонентов и параметров своего ПК:
-
Материнская плата: ASRock A520M Phantom Gaming 4
-
Процессор: AMD Ryzen 7 5700GE
-
Оперативная память: 64 Гб (2x Patriot Viper Steel 32 Гб DDR4 3600 МГц)
-
Основной накопитель: SSD NVMe Kingston KC3000 1 Тб
-
Блок питания: FSP Vita GM 750 Вт
-
Операционная система: Windows 11 Pro
-
Драйвер NVIDIA: 553.74 (серверный grid драйвер от Google)
-
LM Studio: v.0.4.14 (Build 2), CUDA llama.cpp v.2.15, Vulkan llama.cpp v.2.15
Проверим скорость работы LLM. Каждой модели я отправил один и тот же запрос: «Напиши короткую фантастическую историю о приключениях путешественника во времени».
Настройки каждой модели — «по умолчанию», системный ptompt — отсутствует, режим размышлений — включен.
Результаты теста приведены в таблице ниже:
|
Полное название модели |
Тип квантования |
Размер, Гб |
Скорость генерации, токены/сек. |
|
Qwen3.6-35b-a3b |
Q2_K_XL |
13,11 |
38,24 |
|
Qwen3.6-35b-a3b-mtp |
Q2_K_XL |
13,2 |
77,35 |
|
Qwen3.6-35b-a3b |
Q4_K_M |
20,55 |
19,21 |
|
GPT-OSS-20B |
MXFP4 |
11,28 |
109,11 |
|
Gemma-4-e4b |
Q8_0 |
8,4 |
67,87 |
Самой быстрой моделью оказалась GPT-OSS-20B, а самой медленной — Qwen3.6-35b-a3b с квантованием Q4_K_M. Низкая скорость работы последней (19,21 т/с) обусловлена тем, что она не помещается целиком в быструю память GPU: часть слоев выгружается в более медленную оперативную память DDR4. Для сравнения: версия Qwen3.6 с квантованием Q2_K_XL, которая полностью поместилась в VRAM Tesla V100, работает вдвое быстрее (38,24 т/с), а модель с поддержкой MTP — в четыре раза быстрее (77,35 т/с). По моему мнению для большинства задач в работе с локальными LLM достаточно 35-40 токенов в секунду. В связи с этим стоит выбирать модели ИИ, которые полностью помещаются в память GPU. Далее я не буду использовать модель Qwen3.6-35b-a3b Q4_K_M из-за ее низкой скорости работы на моем ПК.
Так же стоит отметить, что модель Qwen3.6-35b-a3b-mtp работает нестабильно с движком CUDA llama.cpp v.2.15. С контекстным окном 15000 токенов модель занимает 15,5 Гб памяти GPU. Во время выполнения запроса в LM Studio иногда возникает резкий рост потребления памяти и модель полностью выгружается. В журнале LM Studio появляется ошибка — CUDA error: out of memory. Поэтому модель Qwen3.6-35b-a3b-mtp я запускал на движке Vulkan llama.cpp v.2.15. Разница в скорости генерации текста между CUDA и Vulkan для этой MTP-модели незаметна, при этом работа на Vulkan была стабильной.
Варианты использования локальных моделей ИИ
Рассмотрим наиболее интересные на мой взгляд варианты использования локальных моделей ИИ, запускаемых в LM Studio.
Генерация кода в OpenCode
Проверим на что способны локальные LLM в генерации кода.
В LM Studio есть встроенный локальный сервер API, который позволяет другим приложениям и ИИ-агентам обращаться к запущенным моделям. Я использовал эту функцию для интеграции локальных моделей в OpenCode.
Для начала попробую создать небольшой одностраничный сайт для ведения личного блога. Тестовый запрос был идентичным для всех моделей.
Qwen3.6-35b-a3b:

Время генерации сайта — 3 минуты 40 секунд. Использованное количество токенов из контекстного окна — 14901.
Qwen3.6-35b-a3b-mtp:

Время генерации сайта — 2 минуты 10 секунд. Использованное количество токенов из контекстного окна — 20244.
GPT-OSS-20B:

Время генерации сайта — 1 минута 45 секунд. Использованное количество токенов из контекстного окна — 17539.
Gemma-4-e4b:

Время генерации сайта — 2 минуты 5 секунд. Использованное количество токенов из контекстного окна — 22456.
Заключение:
Все четыре модели успешно справились с поставленной задачей: корректно сгенерировали структуру сайта, вставили изображения из папки с проектом к заголовкам статей. Правильно вставили текст, соответствующий теме для каждой статьи. Наиболее интересный дизайн на мой взгляд получился у модели Qwen3.6-35b-a3b-mtp.
Далее я решил усложнить задачу и проверить смогут ли локальные LLM справиться с созданием небольшой 2D-игры. Каждой модели отправил одинаковый запрос: «Создай игру, аналогичную игре Flappy Birds. Игра должна открываться в веб-браузере и должна быть максимально приближена к оригиналу».
Qwen3.6-35b-a3b:

Время генерации игры — 7 минут 24 секунды. Использованное количество токенов из контекстного окна — 18677.
-
Графика: Высококачественная, максимально приближенная к оригиналу.
-
Элементы: Красивые облака на фоне, желтая птица в стиле оригинала, зеленые трубы с характерными «горловинами» сверху.
-
Интерфейс: Есть экран приветствия («Flappy Bird», «Click or Press Space»), отображается текущий счет (Score: 1) и лучший результат (Best: 5), полноценный экран Game Over.
-
Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры — средняя.
Qwen3.6-35b-a3b-mtp:

Время генерации игры — 2 минуты 5 секунд. Использованное количество токенов из контекстного окна — 19107.
-
Графика: Хорошая, но фон отличается от оригинала. Облака проработаны лучше, чем в предыдущем варианты. Некорректно выбран цвет земли (зеленый).
-
Элементы: Желтая птица и зеленые трубы выглядят аккуратно.
-
Интерфейс: Экран приветствия с текстом «Tap or press Space to play», отображается текущий счет и лучший результат. На экране Game Over изменяется фон в отличии от предыдущего результата.
-
Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры — легкая, так как количество труб меньше, чем в предыдущем варианте.
GPT-OSS-20B:

Время генерации игры — 2 минуты 24 секунды. Использованное количество токенов из контекстного окна — 20015.
-
Графика: Базовая, минималистичная.
-
Элементы: Вместо птицы желтый круг без деталей, трубы — зеленые прямоугольники без горловин сверху.
-
Интерфейс: Экран «Click to Start», отображается текущий счет — Score: 0 и лучший результат — High: 1. На экране Game Over отображается только текущий счет, не указано как перезапустить игру.
-
Геймплей: Желтый круг успешно проходит между трубами, все элементы корректно отображаются. Сложность игры — легкая. Количество труб примерно такое же как в предыдущем варианте.
Gemma-4-e4b:

Время генерации игры — 1 минута 3 секунды. Использованное количество токенов из контекстного окна — 17333.
-
Графика: Простая, похожа на результат GPT-OSS-20B.
-
Элементы: Желтый круг вместо птицы, зеленые прямоугольники вместо труб.
-
Интерфейс: На стартовом экране нет информации как начать игру. Не отображается текущий счет во время игры. На экране Game Over не отображается лучший результат.
-
Геймплей: Часто встречаются трубы, которые накладываются друг на друга, или просто смыкаются. Худший геймплей среди всех вариантов.
Заключение:
Все модели создали рабочую версию игры Flappy Bird с основными элементами: птицей, трубами, счетчиком очков и экраном Game Over. Однако качество исполнения значительно различается. Обе модели Qwen-3.6-35b-a3b справилась отлично. GPT-OSS-20B удалось реализовать игру на базовом уровне. Gemma-4-e4b — справилась с задачей быстрее всех, но выдала худший с точки зрения геймплея результат.
Работа с документацией
В LM Studio можно прямо в чат приложить документ в формате docx и попросить модель ИИ проанализировать документ: найти ошибки, улучшить стиль текста или дополнить. Однако редактировать и создавать файлы в формате docx модель ИИ не сможет. Для того, чтобы с помощью LM Studio можно было сразу вносить изменения в файл docx нужно установить соответствующий плагин — word-tools. С помощью этого инструмента ИИ модели хорошо справляются с дополнением текста, рерайтом и исправлением ошибок прямо в файле docx.
В качестве примера я решил проверить насколько быстро локальные LLM справятся с генерацией краткого содержания первой части моего обзора Tesla V100. Полный текст статьи был сохранен в файле docx.
Результаты генерации краткого содержания статьи:
Qwen3.6-35b-a3b:
Статья описывает процесс модификации серверного ускорителя NVIDIA Tesla V100 16 GB (SXM2) для домашнего ПК путем установки в корпус от видеокарты RTX 4090. Автор приобрел карту и адаптер через Taobao, затратив около 15 000 рублей. Ключевые этапы работы:
-
Настройка BIOS: отключение CSM, включение Above 4G Decoding и выбор интегрированной графики для вывода изображения на монитор.
-
Установка драйверов: официальный драйвер NVIDIA работал только в режиме TCC (без игр), а серверный драйвер Google вызывал сбои. Стабильная работа достигнута с драйвером 553.74, требуются манипуляции с виртуальным экраном.
-
Физическая сборка: из-за крупных габаритов карты (3,5 кг) потребовались опорный кронштейн и райзеры для переноски других устройств в заблокированные слоты PCIe.
Особое внимание уделено модификации охлаждения. Стандартные кулеры не поддерживают автоматическую регулировку, поэтому вентиляторы были подключены к материнской плате через специальные переходники. Настройка Fan Control позволила добиться бесшумной работы в простое (~15%) и безопасных температур до 60°C при нагрузке.
Обзор является первой частью цикла. Во второй части запланированы тесты ускорителя в современных играх.
Время генерации — 3 минуты.
Qwen3.6-35b-a3b-mtp:
В статье описывается первая часть обзора серверного ускорителя NVIDIA Tesla V100 16 ГБ, установленного в корпус от видеокарты RTX 4090. Рассматриваются технические характеристики карты (архитектура Volta, 5120 CUDA-ядер) и процесс её покупки через китайский маркетплейс. Описываются трудности физической установки: большие габариты корпуса перекрывают слоты расширения материнской платы, что потребовало использования райзеров для подключения Wi-Fi адаптера и дополнительного накопителя, а также специальной опоры из-за веса конструкции. Указывается на отсутствие видеовыходов у серверной карты. Подробно разбирается настройка BIOS, в частности необходимость включения Above 4G Decoding для адресации памяти, и выбор основного устройства вывода изображения. Отмечаются проблемы с драйверами: официальное ПО от NVIDIA поддерживает только вычислительный режим TCC, а серверные версии от Google вызывают сбои системы; в итоге была успешно применена версия драйвера 553.74. В завершении рассказывается о модернизации охлаждения: подключении вентиляторов к материнской плате и настройке их оборотов через программное обеспечение Fan Control для баланса между шумом и температурой.
Время генерации — 51 секунда.
GPT-OSS-20B:
В статье описывается покупка, установка и настройка серверного ускорителя NVIDIA Tesla V100 16 Гб в корпусе RTX 4090. Автор подробно рассказывает о технических характеристиках карты (5120 CUDA‑ядер, 640 тензорных ядер, 16 ГБ HBM2), стоимости доставки и комплектации, а также об особенностях сборки: необходимость установки дополнительных райзеров, настройка BIOS (отключение CSM, включение Above 4G Decoding) и выбор видеокарты для вывода изображения. Далее рассматриваются драйверы – официальные NVIDIA‑драйверы работают только в режиме TCC, а Google‑драйверы поддерживают WDDM, но требуют отключения виртуального экрана. Охлаждение осуществляется через PWM‑переходники и программу Fan Control. Автор отмечает, что Tesla V100 не имеет видеовыходов, поэтому для игр используется интегрированная графика процессора.
Время генерации — 17 секунд.
Gemma-4-e4b:
Статья описывает процесс установки и настройки вычислительного ускорителя Tesla V100 (архитектура Volta, 16 ГБ HBM2) в ПК на базе материнской платы ASRock A520M с использованием адаптера SXM2 на PCI-e 3.0 и корпуса от RTX 4090. В обзоре освещаются технические детали, включая покупку ускорителя (стоимость около 15 000 руб.), сложности физической установки и необходимость использования райзеров. Подробно описаны шаги по настройке BIOS (отключение CSM, включение Above 4G Decoding) для корректной работы с большим объемом памяти. Также рассматриваются проблемы с драйверами — переход от официальных драйверов NVIDIA к серверным драйверам Google и решение вопроса охлаждения путем подключения кулеров Tesla V100 к материнской плате и настройки кривых оборотов через Fan Control.
Время генерации — 26 секунд.
Все модели успешно справились с генерацией краткого содержания статьи и сохранением в файл формата docx. Лучший результат с точки зрения качества текста на мой взгляд у модели Qwen3.6-35b-a3b: в кратком содержании отражены все основные моменты, а ключевые выделены в структурированный список. Самой быстрой оказалась — GPT-OSS-20B.
Итоговая таблица для сравнения времени генерации краткого содержания статьи локальными LLM:
|
Модель |
Время генерации, с |
|---|---|
|
Qwen3.6-35b-a3b |
180 |
|
Qwen3.6-35b-a3b-mtp |
51 |
|
GPT-OSS-20B |
17 |
|
Gemma-4-e4b |
26 |
Заключение
NVIDIA Tesla V100 представляет собой отличную и доступную платформу для экспериментов с локальными моделями ИИ. Ускоритель успешно запускает современные модели, демонстрируя производительность, достаточную для комфортной работы. Ключевым фактором производительности является возможность полной загрузки LLM в память GPU. При выгрузке части слоев модели в оперативную память ПК скорость значительно снижается, сильно затормаживая работу.
Вывод по итогам тестирования моделей ИИ в LM Studio:
-
Qwen3.6-35b-a3b Q2_K_XL (особенно версия с поддержкой MTP): выдает наиболее качественный результат по сравнению с другими протестированными моделями. Лучше всех справилась со всемми задачами: генерация кода одностраничного сайта, создание игры Flappy Bird, рерайт статьи. Модель с поддержкой MTP обеспечивает высокую скорость работы.
-
GPT-OSS-20B: лидер по скорости генерации текста. В генерации кода и рерайте статьи качественно уступает модели Qwen3.6-35b-a3b, но превосходит Gemma-4.
-
Gemma-4-e4b: на мой взгляд показала посредственный результат. При скорости работы сравнимой с Qwen3.6-35b-a3b-mtp качество итогового результата существенно уступает последней.
В итоге NVIDIA Tesla V100 показала себя универсальным решением. Хотя изначально на момент выхода в 2017 году — это был мощный серверный ускоритель для дата-центров, сегодня — это отличное доступное решение для работы с нейросетям с возможностью комфортно играть в современные игры на высоких настройках графики.
На мой взгляд, покупать её стоит как вариант апгрейда старого ПК или для универсальной бюджетной сборки — «работай и играй». Современные видеокарты с 16 Гб памяти стоят дороже, а меньший объем VRAM будет недостаточен для запуска современных моделей ИИ. При этом 16 Гб — это минимальный порог. Для полной загрузки в память GPU модели Qwen3.6-35b в квантовании Q4 (которую я исключил из теста из-за низкой скорости работы) нужен объем VRAM минимум 24 Гб.
ссылка на оригинал статьи https://habr.com/ru/articles/1039198/