20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

Мы держим каталог видеокарт и накопили базу на 13 566 GPU — от GeForce 256 (1999) до Blackwell и MI355X (2025). В какой-то момент стало интересно, как менялась индустрия: насколько выросли FLOPS, во что упёрся TDP, и кто вёл в гонке NVIDIA против AMD в разные годы.

Ниже — разбор по нашим данным. Сразу скажу, что зафиксировал: методологию (что и как считал, где данные шумят) и открытый датасет в конце статьи — забирайте и копайте вместе с нами 😊

TL;DR

Пиковый FP32 флагмана вырос ~в 400 раз за 19 лет: 0.3 TFLOPS (GeForce 8800 GTX, 2006) → 126 TFLOPS (Blackwell, 2025). Это почти ровная экспонента в полулог-масштабе.
TDP полз медленно (155 → 300 Вт за 2006–2020), а потом рванул в датацентре: 700 Вт (H100), 1000 Вт (MI325X / B200), 1400 Вт (MI355X, 2025).
При этом производительность на ватт выросла ~в 100 раз — то есть «жрут больше», но «делают на ватт кратно больше». Главный драйвер — техпроцесс (90 нм → 3 нм) и архитектура.
Дуэль NVIDIA/AMD по пиковому FP32 менялась волнами: AMD вела в начале 2010-х (эра GCN) и снова в 2023–24 (Instinct MI300/MI325), NVIDIA — в 2016–2020 (разворот в ИИ) и в 2025 (Blackwell). Но «сырой FP32» — обманчивая метрика, и об этом ниже.

Методология

Что такое эти TFLOPS и почему они «теоретические». Все FP32-числа в статье — это теоретический пик, который вендоры считают по формуле:
```
FP32 TFLOPS = (число шейдерных ALU / CUDA-ядер) × boost-частота, Гц × 2 / 10¹²
```
Множитель ×2 — потому что инструкция FMA (fused multiply-add) делает умножение и сложение за один такт, то есть две операции. Это потолок, а не реальная производительность: на практике достигается ощутимо меньше — обычно 60–90% на хорошо оптимизированных compute-bound ядрах и кратно меньше на memory-bound, — потому что мешают пропускная способность памяти, занятость SM, состав инструкций и тот факт, что boost-частота не держится постоянно под нагрузкой и тепловым лимитом. Расхождение теории и практики — это норма. Теоретический пик ценен другим: он считается по одной формуле для всех карт и поколений, поэтому это честная сопоставимая линейка для исторического сравнения — её и указывают в спеках, её и используем мы. Реальную производительность меряют уже бенчмарками (они в датасете отдельной таблицей).
Источник — наша база спецификаций. «Флагман года» = карта с максимальным fp32_performance, выпущенная в этом году, отдельно по NVIDIA и AMD.
Для кривой TDP/эффективности я исключил dual-GPU карты (GTX 295, HD 6990, R9 295X2 и т. п.) — иначе TDP и FLOPS задваиваются и ломают тренд.
Где данные шумят:
- vendor проставлен у ~2 360 из 13 566 карт (остальное — в основном OEM-варианты партнёрских плат). Медианы считаю по размеченной выборке; пики флагманов размечены полностью.
- FP16/tensor-производительность между вендорами в лоб не сравнима — из-за structured sparsity. Начиная с Ampere (A100), NVIDIA в спеках указывает тензорные FP16/BF16 уже с учётом sparsity — это ×2 к «плотному» (dense) значению (фича обрабатывает разреженные матрицы вдвое быстрее). В нашей базе для таких карт хранится именно эта «sparse»-цифра. У AMD аналогичной строки в спеках нет — там dense. Поэтому сырой столбец FP16 у NVIDIA (A100+) нужно делить на 2, чтобы сравнивать с AMD честно: A100 = 624 (sparse) → 312 dense, H100 = 1979 → ~990 dense. Раздел про «AI-перелом» ниже опирается на эти приведённые к dense числа.

1. FLOPS: почти ровная экспонента

Пиковый FP32 одиночного флагмана по годам (NVIDIA):

Год	Флагман	FP32, TFLOPS
2006	GeForce 8800 GTX	0.3
2010	GeForce GTX 580	1.6
2013	GeForce GTX 780 Ti	5.3
2016	Quadro P6000	12.6
2017	Tesla V100	15.7
2020	RTX A6000	38.7
2022	L40S	91.6
2025	RTX PRO 6000 Blackwell	126.0

≈400× за 19 лет — это CAGR около 37% в год. В полулогарифмическом масштабе линия почти прямая: классическая экспонента, которая лишь недавно начала загибаться на «настольном» сегменте и переехала в датацентр.

График: FP32 флагманов NVIDIA и AMD по годам (лог-шкала)

2. TDP: тихий рост, затем датацентровый взрыв

Год	Карта	TDP, Вт
2006	GeForce 8800 GTX	155
2010	GTX 580	244
2017	Tesla V100	250
2020	RTX A6000	300
2022	H100 SXM	700
2024	MI325X / B200	1000
2025	MI355X	1400

Полтора десятилетия TDP флагмана держался в коридоре 150–300 Вт. Перелом — после 2020-го, и он целиком датацентровый: ускорители для ИИ (SXM/OAM-модули) выскочили на 700–1400 Вт, потому что их охлаждают не кулером в корпусе, а жидкостью в стойке. Настольный потолок отдельно упёрся в ~450–600 Вт (RTX 4090/5090).

Любопытный разрыв виден, если посмотреть отдельно на потребительские флагманы NVIDIA: GeForce-флагман семь лет (2013–2019) простоял ровно на 250 Вт — GTX 780 Ti, Titan X, 1080 Ti, 2080 Ti, — и прорвал этот потолок только с RTX 3090 (350 Вт, 2020), дальше 4090 (450 Вт) и 5090 (575 Вт). А вот датацентровые ускорители ушли на 700–1400 Вт почти сразу. Похоже, выше игровой TDP пускал не столько кремний, сколько рынок — корпуса, блоки питания и привычки покупателей; в стойке таких ограничений нет, и там ватты росли без оглядки. (Это интерпретация: спека хранит ватты, а не намерения — но 250-ваттное плато на семь поколений в данных видно отчётливо.)

График: TDP флагманов, с пометкой «настольные» vs «датацентровые модули»

3. Производительность на ватт: вот это и есть прогресс

Если смотреть только на TDP, кажется «всё хуже, карты жрут как не в себя». Но FP32 на ватт рассказывает обратное:

Год	Флагман	TFLOPS/Вт
2006	8800 GTX	0.002
2013	GTX 780 Ti	0.021
2016	Quadro P6000	0.051
2020	RTX A6000	0.129
2022	L40S	0.262
2025	RTX PRO 6000 Blackwell	0.21

~100× по эффективности. Пик «классической» эффективности приходится на 2022 (Ada/L40S); датацентровые карты 2024–25 местами проигрывают по TFLOPS/Вт, потому что сознательно меняют эффективность на абсолютную плотность вычислений в стойке. Главные драйверы роста эффективности — техпроцесс (90 нм → 3 нм) и архитектурные улучшения, а не частоты.

График: TFLOPS/Вт по годам (двойная линия N/AMD)

4. Дуэль NVIDIA vs AMD

Если по годам отмечать, чей одиночный флагман имел больший FP32:

Период	Лидер	Контекст
2007–2008	AMD	FireStream 9170/9270
2010–2013	AMD	GCN: HD 6970, HD 7970 GHz, R9 290X
2014	NVIDIA	Titan Black (5.6) vs FirePro W9100 (5.2)
2015	AMD	Fury X (8.6)
2016–2020	NVIDIA	Pascal → Ampere, разворот в ИИ
2021	AMD	Instinct MI250X (47.9)
2022	NVIDIA	L40S / Hopper
2023–2024	AMD	Instinct MI300A/MI325X (81.7)
2025	NVIDIA	Blackwell (126)

Картина волнообразная и привёл я её только для интриги, чтобы хоть как-то дать AMD шанс. Ведь по сырому FP32 AMD регулярно выбивала лидерство — в эру GCN и снова на свежих Instinct. Но именно сырой FP32 — обманчивая метрика для современного мира. Эра ИИ выигрывается не на FP32, а на софте и FP16/BF16/FP8. Здесь NVIDIA с tensor-ядрами (начиная с V100, 2017) и экосистемой CUDA построила ров, который цифрами одного только FP32 не виден: V100 дал ~125 TFLOPS tensor-FP16, A100 — ~312, H100 — ~990 (публичные данные вендора). То есть «дуэль по FP32» — это про прошлое железа как графического ускорителя; настоящая битва ушла в плоскость, которую FP32 не измеряет.

Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)

Поэтому, +1 график с FP16-дуэлью, где NVIDIA стабильно впереди. А если на это накинуть ещё и софт для ИИ…

График: AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала

5. Что ещё видно в данных

Техпроцесс: 90 нм (2006) → 28 нм (плато 2012–2015, «застрявший узел») → 16/12/7 → 3 нм (MI355X, 2025).
VRAM флагмана: 0.77 ГБ (8800 GTX) → 12–24 ГБ (середина 2010-х) → 48 ГБ (A6000) → 192–288 ГБ (MI300/MI355X). Память растёт даже быстрее, чем компьют, — потому что модели ИИ упираются в неё.
«Застрявшие» 28 нм: четыре года (2012–2015) индустрия сидела на одном узле — и именно тогда AMD держала паритет/лидерство по FP32. Как только пошёл рывок по техпроцессу и появились tensor-ядра, преимущество качнулось к NVIDIA.

Открытый датасет — забирайте

Выложили очищенный дамп нашей базы характеристик GPU — для тех, кто хочет покопать сам:

📦 Скачать: gpuark.com/datasets — файлы gpuark-gpu-specs.csv, gpuark-benchmarks.csv, gpuark-gpu-dataset.sqlite, либо всё одним архивом gpuark-gpu-dataset.tar.gz.

13 566 GPU (поля: вендор, производитель, дата выпуска, архитектура, техпроцесс, транзисторы, частоты, объём и тип памяти, шина, FP16/FP32/FP64/BF16/TF32/INT8, TDP, NVLink, CUDA SM и др.) + 993 результата сторонних бенчмарков (джойнятся по gpu_id).
Форматы: CSV (Excel/pandas) и SQLite (готовые SQL-запросы) — две таблицы gpu_specs и benchmarks.
Лицензия: CC BY 4.0 (атрибуция на gpuark.com).

Выводы

FLOPS росли почти ровной экспонентой (~37%/год) — но «бесплатный» рост закончился, дальше платим TDP и переездом в стойку.
Реальный прогресс измеряется не ваттами и не сырым FP32, а производительностью на ватт (×100) — и она держится на техпроцессе.
AMD по «сырым» числам бодалась и лидировала чаще, чем принято думать; но эру ИИ определил не FP32, а tensor + софт.

Данные открыты — если найдёте в них что-то, чего мы не заметили, напишите.

ссылка на оригинал статьи https://habr.com/ru/articles/1039278/