Сравнение GPU NVIDIA: от V100 до B300

Что такое Tensor Core GPU

NVIDIA Tensor Core GPU — стандарт де-факто для AI-вычислений благодаря архитектуре, спроектированной специально под операции, характерные для нейронных сетей.

Тензоры — основной тип данных в AI: это многомерные массивы весов. Для их обработки необходимо массовое матричное умножение, и именно его ускоряет специализированный аппаратный блок — Tensor Core. В отличие от классических CUDA-ядер, Tensor Core за один такт выполняет смешанно-точностное матричное умножение сразу над блоком чисел.

Впервые Tensor Core появились в Tesla V100 (Volta, 2017). Начиная с Ampere, NVIDIA отказалась от бренда «Tesla» в пользу названия «Tensor Core GPU», подчёркивая, что именно производительность тензорных ядер и объём высокоскоростной HBM-памяти определяют реальную стоимость владения AI-кластером.

В облаке Cloud4Y представлены все ключевые поколения этих карт: доступны в аренду серверные GPU для ЦОД (от V100 до B300) и карты для рабочих станций (RTX 4090, RTX A6000 Ada, RTX 5090). Разберёмся, чем они отличаются и какую из них арендовать под конкретную задачу.

Сводная таблица: все GPU Cloud4Y

Для серверных карт приведены характеристики SXM-модификаций (HGX/DGX). PCIe-версии имеют урезанные характеристики.

Краткий ориентир по строкам таблицы:

FP32, FP16, FP8 — вычислительная мощность на разных форматах точности. Чем больше — тем быстрее выполняются задачи. FP16 и FP8 — основные форматы для AI.
Память — сколько данных помещается «в карту». Определяет, модель какого размера можно запустить.
Проп. памяти — скорость подачи данных в вычислитель. Критична для инференса больших моделей.
NVLink — межкарточное соединение. Есть только у серверных GPU, позволяет объединять карты в кластер.
TDP — энергопотребление. Влияет на стоимость эксплуатации и требования к охлаждению.

	V100	A100	H100	H200	B200	B300	RTX 4090	A6000 Ada	RTX 5090	RTX 6000 Blackwell
Архитектура	Volta	Ampere	Hopper	Hopper	Blackwell	Blackwell Ultra	Ada Lovelace	Ada Lovelace	Blackwell	Blackwell
Год	2017	2020	2022	2024	2025	2025	2022	2022	2025	2025
Сегмент	ЦОД	ЦОД	ЦОД	ЦОД	ЦОД	ЦОД	Раб. станция	Раб. станция	Раб. станция	Раб. станция
FP64	7.8 TFLOPS	9.7 TFLOPS	34 TFLOPS	34 TFLOPS	37 TFLOPS	1.2 TFLOPS	—	—	—	—
FP32	15.7 TFLOPS	19.5 TFLOPS	67 TFLOPS	67 TFLOPS	75 TFLOPS	75 TFLOPS	82.6 TFLOPS	91.1 TFLOPS	104.8 TFLOPS	125 TFLOPS
TF32 Tensor	—	312 TFLOPS	989 TFLOPS	989 TFLOPS	2.2 PFLOPS	2.2 PFLOPS	—	—	—	—
FP16/BF16 Tensor	125 TFLOPS	624 TFLOPS	1979 TFLOPS	1979 TFLOPS	4.5 PFLOPS	4.5 PFLOPS	330 TFLOPS	364 TFLOPS	~420 TFLOPS	4000 AI TOPS*
FP8 Tensor	—	—	3958 TFLOPS	3958 TFLOPS	9 PFLOPS	9 PFLOPS	660 TFLOPS	728 TFLOPS	~840 TFLOPS	✓
FP4 Tensor (Dense)	—	—	—	—	9 PFLOPS	до 15 PFLOPS	—	—	✓	✓
Память	32 ГБ HBM2	80 ГБ HBM2e	80 ГБ HBM3	141 ГБ HBM3e	192 ГБ HBM3e	288 ГБ HBM3e	24 ГБ GDDR6X	48 ГБ GDDR6 ECC	32 ГБ GDDR7	96 ГБ GDDR7 ECC
Проп. памяти	900 ГБ/с	2 ТБ/с	3.35 ТБ/с	4.8 ТБ/с	до 8 ТБ/с	до 8 ТБ/с	1.01 ТБ/с	960 ГБ/с	1.79 ТБ/с	1.8 ТБ/с
NVLink	300 ГБ/с	600 ГБ/с	900 ГБ/с	900 ГБ/с	1.8 ТБ/с	1.8 ТБ/с	—	—	—	—
TDP	300 Вт	400 Вт	700 Вт	700 Вт	1000 Вт	1400 Вт	450 Вт	300 Вт	575 Вт	600 Вт

* NVIDIA приводит для RTX PRO 6000 Blackwell совокупный показатель AI-производительности (4000 AI TOPS), не разделяя на FP16/FP8 отдельно. Источники: Exxact Corp (A100, H100, H200, B200 — точные значения из таблицы); NVIDIA Technical Blog (B300 — 288 ГБ, 8 ТБ/с, до 15 PFLOPS FP4); NVIDIA Datasheets (V100 SXM2, H100 SXM5 — bandwidth 3.35 ТБ/с; H100/H200 FP16 = 1979, FP8 = 3958 TFLOPS — точные значения, Exxact округляет их до 2 и 4 PFLOPS); TechPowerUp GPU Database (RTX 4090, A6000 Ada); RunPod, Notebookcheck (RTX 5090); NVIDIA RTX PRO 6000 Blackwell Datasheet, Leadtek (RTX 6000 Blackwell — 125 TFLOPS FP32, 4000 AI TOPS, 96 ГБ GDDR7 ECC, 1.8 ТБ/с, 600 Вт).

Если смотреть на производительность, выраженную в количестве операций с плавающей точкой в секунду на заданной точности, видно: GPU поколения Blackwell жертвуют производительностью FP64 Tensor Core ради кратного ускорения в FP32 и ниже. B300 доводит эту логику до предела: его FP64 составляет всего 1.2 TFLOPS, зато FP4 — до 15 PFLOPS.

Обучение нейронных сетей не требует 64-битной точности для расчёта весов и параметров. Отказываясь от FP64 Tensor Core, NVIDIA высвобождает транзисторный бюджет в пользу форматов FP32, FP16, FP8/FP6 и FP4, которые используются в реальных AI-задачах.

Производительность B300 и B200 в TF32, FP16 и FP8 более чем вдвое превышает показатели предыдущего поколения H200. Кроме того, Blackwell получил новый Transformer Engine с поддержкой FP4. Эти форматы пониженной точности применяются не ко всему вычислению целиком, а в составе смешанной точности (Mixed Precision) — и выигрыш в производительности при таком подходе кратный.

Карты V100 и RTX-линейка (4090, A6000 Ada, 5090) не входят в оригинальное сравнение Exxact; мы добавили их, поскольку они представлены в парке Cloud4Y. V100 остаётся разумным выбором для задач, где достаточно 125 TFLOPS FP16 и 32 ГБ памяти. RTX-карты не имеют NVLink и используют GDDR-память, но выигрывают в соотношении цена/FP32 и подходят для рендера, Stable Diffusion и инференса. RTX 6000 Blackwell с 96 ГБ ECC-памяти занимает уникальную нишу между рабочими станциями и серверными GPU: это единственная несерверная карта, способная запустить 70B-модель в FP8 на одном ускорителе.

Нужно ли обновляться?

«Новее — значит лучше» в случае аппаратного обеспечения часто оправдано. Но переход на новейшую платформу Tensor Core GPU — стратегическое решение, которое зависит от вычислительных потребностей организации, типа нагрузки и планов по масштабированию. Новые архитектуры дают очевидный прирост, но реальная отдача появляется тогда, когда железо соответствует приоритетам нагрузки.

Разворачиваете новую AI-инфраструктуру → Blackwell

Платформы B300 и B200 обеспечивают существенный прирост и в обучении, и в инференсе по сравнению с Hopper. B300 располагает более чем втрое большим объёмом памяти относительно H100 (288 ГБ против 80 ГБ).

По проверенным данным о производительности B300 и B200, прирост составляет до 11–15× по пропускной способности LLM на одну карту по сравнению с Hopper. На многокарточных конфигурациях этот множитель масштабируется.

Архитектура Blackwell поддерживает режимы пониженной точности (FP8, FP4), которые значительно повышают эффективность крупномасштабного обучения и инференса.

Обновляете существующий парк H100 или H200 → гибридная стратегия

Рассмотрите гибридное распределение нагрузки: B300 или B200 — для критичных задач инференса, H200 — для фоновых ресурсоёмких задач.

Продолжайте обучение крупных моделей на H100 или H200 — они остаются сильны в FP64 и FP8 для HPC- и тренировочных нагрузок.

Используйте B200 или B300 для инференса и промышленной эксплуатации: именно здесь Blackwell обеспечивает наибольший выигрыш в пропускной способности и задержке.

NVIDIA продолжает развивать линейку, и переход на новое железо можно осуществлять постепенно. Крупномасштабные инфраструктуры требуют времени на развёртывание и окупаемость. Даже при выходе нового поколения предыдущее продолжает обеспечивать высокую производительность.

Тарифы

Итоговая стоимость может отличаться в зависимости от конфигурации CPU, RAM, NVMe, сетевого канала и сертификации.

GPU	₽/час	₽/мес.	Типовой сценарий
Tesla V100 32 ГБ	147	68 814*	Компьютерное зрение, OCR, классический ML, рендер
Tesla A100 40 ГБ	155	72 410*	Дообучение и инференс моделей до 7B, MIG, классический ML
Tesla H100 80 ГБ	686	321 157*	Обучение трансформеров, инференс 13–70B
Tesla H200 141 ГБ	686	321 157*	Инференс LLM 70B+, длинные контексты
Tesla B200 180 ГБ	1 123	525 559*	Флагманские модели, HPC + AI
Tesla B300 288 ГБ	1 116	803 306	Инференс 100B+ с FP4, большой KV-кэш
RTX 4090 24 ГБ	100	72 061*	Stable Diffusion, инференс до 13B
RTX 5090 24 ГБ	83	75 667*	Инференс FP4 до 24B, рендер, Stable Diffusion
RTX A6000 Ada 48 ГБ	105	81 967*	Промышленный инференс 13–30B, ECC
RTX 6000 Blackwell 96 ГБ	137	98 364*	Инференс 70B в FP8 на одной карте, 96 ГБ ECC

* Цена указана с учётом скидки. Актуальный прайс и условия.

Метрика эффективности

Сравнивать GPU по цене в рублях за час бессмысленно — карта, которая в два раза дороже, может решать задачу в три раза быстрее. Корректный подход — считать стоимость результата.

Подход 1 — стоимость TFLOPS. Делим тариф на FP16-производительность. Чем меньше рублей за TFLOPS — тем выгоднее.

Подход 2 — стоимость миллиона токенов. Берём бенчмарк TensorRT-LLM на Llama-3 70B FP8, считаем токенов/час и делим на тариф. По этой метрике H200 выигрывает у H100 даже при +25 % к тарифу: 1.9× прирост снижает себестоимость токена на 30–40 %. B200 и B300 опережают H200 ещё в 2–3 раза.

Главный тезис: оценивайте GPU не по цене в час, а по цене за выполненную работу.

Почему аренда GPU в Cloud4Y выгоднее покупки

Для российского бизнеса покупка GPU-инфраструктуры в 2026 году — это не просто крупные капзатраты. Это логистика параллельного импорта, задержки на месяцы, сложности с гарантиями.

• Капзатраты → операционные. При аренде вы платите только за реально использованные часы.

• ЦОД в РФ и за рубежом. Москва, Новосибирск, Турция, Германия, Нидерланды.

• ФЗ-152, ФЗ-187, PCI DSS, CSA STAR. Сертификации, которых у зарубежных облаков под российское регулирование нет.

• Почасовая тарификация. Платите за часы под GPU, а не за простаивающую карту.

• Быстрая смена поколения. Переключение на новый тариф без закупки, монтажа и списания.

Заключение

Выбор GPU — не про «берём самое новое». Правильная формула: берём карту, у которой себестоимость единицы результата минимальна. Для моделей 70B+ — H200 или Blackwell. Для 13–30B — H100 или A6000 Ada. Для классического ML — V100 или A100. Для разработки и рендера — RTX 4090, 5090, A6000 Ada.

Cloud4Y даёт доступ ко всему диапазону: от V100 до B300, с почасовой оплатой и в рамках российского правового поля.

Подобрать конфигурацию: cloud4y.ru/cloud-hosting/gpu

Материал подготовлен на основе аналитики Exxact Corporation (ноябрь 2025) с расширением под полный парк GPU Cloud4Y. Данные по B300 уточнены по официальному техническому блогу NVIDIA (январь 2026).

ссылка на оригинал статьи https://habr.com/ru/articles/1026692/