Сравнение GPU NVIDIA: от V100 до B300

от автора

Что такое Tensor Core GPU

NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.

Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.

Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.

В облаке Cloud4Y представлены все ключевые поколения этих карт: доступны в аренду серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.

Сводная таблица: все GPU Cloud4Y

Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.

Краткий ориентир по строкам таблицы:

  • FP32, FP16, FP8 — вычислительная мощность на разных форматах точности. Чем больше — тем быстрее выполняются задачи. FP16 и FP8 — основные форматы для AI.

  • Память — сколько данных помещается «в карту». Определяет, модель какого размера можно запустить.

  • Проп. памяти — скорость подачи данных в вычислитель. Критична для инференса больших моделей.

  • NVLink — межкарточное соединение. Есть только у серверных GPU, позволяет объединять карты в кластер.

  • TDP — энергопотребление. Влияет на стоимость эксплуатации и требования к охлаждению.

V100

A100

H100

H200

B200

B300

RTX 4090

A6000 Ada

RTX 5090

RTX 6000 Blackwell

Архитектура

Volta

Ampere

Hopper

Hopper

Blackwell

Blackwell Ultra

Ada Lovelace

Ada Lovelace

Blackwell

Blackwell

Год

2017

2020

2022

2024

2025

2025

2022

2022

2025

2025

Сегмент

ЦОД

ЦОД

ЦОД

ЦОД

ЦОД

ЦОД

Раб. станция

Раб. станция

Раб. станция

Раб. станция

FP64

7.8 TFLOPS

9.7 TFLOPS

34 TFLOPS

34 TFLOPS

37 TFLOPS

1.2 TFLOPS

FP32

15.7 TFLOPS

19.5 TFLOPS

67 TFLOPS

67 TFLOPS

75 TFLOPS

75 TFLOPS

82.6 TFLOPS

91.1 TFLOPS

104.8 TFLOPS

125 TFLOPS

TF32 Tensor

312 TFLOPS

989 TFLOPS

989 TFLOPS

2.2 PFLOPS

2.2 PFLOPS

FP16/BF16 Tensor

125 TFLOPS

624 TFLOPS

1979 TFLOPS

1979 TFLOPS

4.5 PFLOPS

4.5 PFLOPS

330 TFLOPS

364 TFLOPS

~420 TFLOPS

4000 AI TOPS*

FP8 Tensor

3958 TFLOPS

3958 TFLOPS

9 PFLOPS

9 PFLOPS

660 TFLOPS

728 TFLOPS

~840 TFLOPS

FP4 Tensor (Dense)

9 PFLOPS

до 15 PFLOPS

Память

32 ГБ HBM2

80 ГБ HBM2e

80 ГБ HBM3

141 ГБ HBM3e

192 ГБ HBM3e

288 ГБ HBM3e

24 ГБ GDDR6X

48 ГБ GDDR6 ECC

32 ГБ GDDR7

96 ГБ GDDR7 ECC

Проп. памяти

900 ГБ/с

2 ТБ/с

3.35 ТБ/с

4.8 ТБ/с

до 8 ТБ/с

до 8 ТБ/с

1.01 ТБ/с

960 ГБ/с

1.79 ТБ/с

1.8 ТБ/с

NVLink

300 ГБ/с

600 ГБ/с

900 ГБ/с

900 ГБ/с

1.8 ТБ/с

1.8 ТБ/с

TDP

300 Вт

400 Вт

700 Вт

700 Вт

1000 Вт

1400 Вт

450 Вт

300 Вт

575 Вт

600 Вт

* NVIDIA приводит для RTX PRO 6000 Blackwell совокупный показатель AI-производительности (4000 AI TOPS), не разделяя на FP16/FP8 отдельно. Источники: Exxact Corp (A100, H100, H200, B200 — точные значения из таблицы); NVIDIA Technical Blog (B300 — 288 ГБ, 8 ТБ/с, до 15 PFLOPS FP4); NVIDIA Datasheets (V100 SXM2, H100 SXM5 — bandwidth 3.35 ТБ/с; H100/H200 FP16 = 1979, FP8 = 3958 TFLOPS — точные значения, Exxact округляет их до 2 и 4 PFLOPS); TechPowerUp GPU Database (RTX 4090, A6000 Ada); RunPod, Notebookcheck (RTX 5090); NVIDIA RTX PRO 6000 Blackwell Datasheet, Leadtek (RTX 6000 Blackwell — 125 TFLOPS FP32, 4000 AI TOPS, 96 ГБ GDDR7 ECC, 1.8 ТБ/с, 600 Вт).

Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — до 15 PFLOPS.

Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.

Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.

Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса. RTX 6000 Blackwell с 96 ГБ ECC-памяти занимает уникальную нишу между рабочими станциями и серверными GPU: это единственная несерверная карта, способная запустить 70B-модель в FP8 на одном ускорителе.

Нужно ли обновляться?

«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.

Разворачиваете новую AI-инфраструктуру → Blackwell

Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).

По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.

Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.

Обновляете существующий парк H100 или H200 → гибридная стратегия

Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.

Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.

Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.

NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.

Тарифы

Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.

GPU

₽/час

₽/мес.

Типовой сценарий

Tesla V100 32 ГБ

147

68 814*

Компьютерное зрение, OCR, классический ML, рендер

Tesla A100 40 ГБ

155

72 410*

Дообучение и инференс моделей до 7B, MIG, классический ML

Tesla H100 80 ГБ

686

321 157*

Обучение трансформеров, инференс 13–70B

Tesla H200 141 ГБ

686

321 157*

Инференс LLM 70B+, длинные контексты

Tesla B200 180 ГБ

1 123

525 559*

Флагманские модели, HPC + AI

Tesla B300 288 ГБ

1 116

803 306

Инференс 100B+ с FP4, большой KV-кэш

RTX 4090 24 ГБ

100

72 061*

Stable Diffusion, инференс до 13B

RTX 5090 24 ГБ

83

75 667*

Инференс FP4 до 24B, рендер, Stable Diffusion

RTX A6000 Ada 48 ГБ

105

81 967*

Промышленный инференс 13–30B, ECC

RTX 6000 Blackwell 96 ГБ

137

98 364*

Инференс 70B в FP8 на одной карте, 96 ГБ ECC

* Цена указана с учётом скидки. Актуальный прайс и условия.


Метрика эффективности

Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.

Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.

Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.

Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.

Почему аренда GPU в Cloud4Y выгоднее покупки

Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.

•       Капзатраты → операционные. При аренде вы платите только за реально использованные часы.

•       ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.

•       ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.

•       Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.

•       Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.

Заключение

Выбор GPU — не про «берём самое новое». Правильная формула: берём карту, у которой себестоимость единицы результата минимальна. Для моделей 70B+ — H200 или Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.

Cloud4Y даёт доступ ко всему диапазону: от V100 до B300, с почасовой оплатой и в рамках российского правового поля.

Подобрать конфигурацию: cloud4y.ru/cloud-hosting/gpu

Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).

ссылка на оригинал статьи https://habr.com/ru/articles/1026692/