Мы держим каталог видеокарт и накопили базу на 13 566 GPU — от GeForce 256 (1999) до Blackwell и MI355X (2025). В какой-то момент стало интересно, как менялась индустрия: насколько выросли FLOPS, во что упёрся TDP, и кто вёл в гонке NVIDIA против AMD в разные годы.
Ниже — разбор по нашим данным. Сразу скажу, что зафиксировал: методологию (что и как считал, где данные шумят) и открытый датасет в конце статьи — забирайте и копайте вместе с нами 😊
TL;DR
-
Пиковый FP32 флагмана вырос ~в 400 раз за 19 лет: 0.3 TFLOPS (GeForce 8800 GTX, 2006) → 126 TFLOPS (Blackwell, 2025). Это почти ровная экспонента в полулог-масштабе.
-
TDP полз медленно (155 → 300 Вт за 2006–2020), а потом рванул в датацентре: 700 Вт (H100), 1000 Вт (MI325X / B200), 1400 Вт (MI355X, 2025).
-
При этом производительность на ватт выросла ~в 100 раз — то есть «жрут больше», но «делают на ватт кратно больше». Главный драйвер — техпроцесс (90 нм → 3 нм) и архитектура.
-
Дуэль NVIDIA/AMD по пиковому FP32 менялась волнами: AMD вела в начале 2010-х (эра GCN) и снова в 2023–24 (Instinct MI300/MI325), NVIDIA — в 2016–2020 (разворот в ИИ) и в 2025 (Blackwell). Но «сырой FP32» — обманчивая метрика, и об этом ниже.
Методология
-
Что такое эти TFLOPS и почему они «теоретические». Все FP32-числа в статье — это теоретический пик, который вендоры считают по формуле:
FP32 TFLOPS = (число шейдерных ALU / CUDA-ядер) × boost-частота, Гц × 2 / 10¹²Множитель ×2 — потому что инструкция FMA (fused multiply-add) делает умножение и сложение за один такт, то есть две операции. Это потолок, а не реальная производительность: на практике достигается ощутимо меньше — обычно 60–90% на хорошо оптимизированных compute-bound ядрах и кратно меньше на memory-bound, — потому что мешают пропускная способность памяти, занятость SM, состав инструкций и тот факт, что boost-частота не держится постоянно под нагрузкой и тепловым лимитом. Расхождение теории и практики — это норма. Теоретический пик ценен другим: он считается по одной формуле для всех карт и поколений, поэтому это честная сопоставимая линейка для исторического сравнения — её и указывают в спеках, её и используем мы. Реальную производительность меряют уже бенчмарками (они в датасете отдельной таблицей).
-
Источник — наша база спецификаций. «Флагман года» = карта с максимальным
fp32_performance, выпущенная в этом году, отдельно по NVIDIA и AMD. -
Для кривой TDP/эффективности я исключил dual-GPU карты (GTX 295, HD 6990, R9 295X2 и т. п.) — иначе TDP и FLOPS задваиваются и ломают тренд.
-
Где данные шумят:
-
vendorпроставлен у ~2 360 из 13 566 карт (остальное — в основном OEM-варианты партнёрских плат). Медианы считаю по размеченной выборке; пики флагманов размечены полностью. -
FP16/tensor-производительность между вендорами в лоб не сравнима — из-за structured sparsity. Начиная с Ampere (A100), NVIDIA в спеках указывает тензорные FP16/BF16 уже с учётом sparsity — это ×2 к «плотному» (dense) значению (фича обрабатывает разреженные матрицы вдвое быстрее). В нашей базе для таких карт хранится именно эта «sparse»-цифра. У AMD аналогичной строки в спеках нет — там dense. Поэтому сырой столбец FP16 у NVIDIA (A100+) нужно делить на 2, чтобы сравнивать с AMD честно: A100 = 624 (sparse) → 312 dense, H100 = 1979 → ~990 dense. Раздел про «AI-перелом» ниже опирается на эти приведённые к dense числа.
-
1. FLOPS: почти ровная экспонента
Пиковый FP32 одиночного флагмана по годам (NVIDIA):
|
Год |
Флагман |
FP32, TFLOPS |
|---|---|---|
|
2006 |
GeForce 8800 GTX |
0.3 |
|
2010 |
GeForce GTX 580 |
1.6 |
|
2013 |
GeForce GTX 780 Ti |
5.3 |
|
2016 |
Quadro P6000 |
12.6 |
|
2017 |
Tesla V100 |
15.7 |
|
2020 |
RTX A6000 |
38.7 |
|
2022 |
L40S |
91.6 |
|
2025 |
RTX PRO 6000 Blackwell |
126.0 |
≈400× за 19 лет — это CAGR около 37% в год. В полулогарифмическом масштабе линия почти прямая: классическая экспонента, которая лишь недавно начала загибаться на «настольном» сегменте и переехала в датацентр.
2. TDP: тихий рост, затем датацентровый взрыв
|
Год |
Карта |
TDP, Вт |
|---|---|---|
|
2006 |
GeForce 8800 GTX |
155 |
|
2010 |
GTX 580 |
244 |
|
2017 |
Tesla V100 |
250 |
|
2020 |
RTX A6000 |
300 |
|
2022 |
H100 SXM |
700 |
|
2024 |
MI325X / B200 |
1000 |
|
2025 |
MI355X |
1400 |
Полтора десятилетия TDP флагмана держался в коридоре 150–300 Вт. Перелом — после 2020-го, и он целиком датацентровый: ускорители для ИИ (SXM/OAM-модули) выскочили на 700–1400 Вт, потому что их охлаждают не кулером в корпусе, а жидкостью в стойке. Настольный потолок отдельно упёрся в ~450–600 Вт (RTX 4090/5090).
Любопытный разрыв виден, если посмотреть отдельно на потребительские флагманы NVIDIA: GeForce-флагман семь лет (2013–2019) простоял ровно на 250 Вт — GTX 780 Ti, Titan X, 1080 Ti, 2080 Ti, — и прорвал этот потолок только с RTX 3090 (350 Вт, 2020), дальше 4090 (450 Вт) и 5090 (575 Вт). А вот датацентровые ускорители ушли на 700–1400 Вт почти сразу. Похоже, выше игровой TDP пускал не столько кремний, сколько рынок — корпуса, блоки питания и привычки покупателей; в стойке таких ограничений нет, и там ватты росли без оглядки. (Это интерпретация: спека хранит ватты, а не намерения — но 250-ваттное плато на семь поколений в данных видно отчётливо.)
3. Производительность на ватт: вот это и есть прогресс
Если смотреть только на TDP, кажется «всё хуже, карты жрут как не в себя». Но FP32 на ватт рассказывает обратное:
|
Год |
Флагман |
TFLOPS/Вт |
|---|---|---|
|
2006 |
8800 GTX |
0.002 |
|
2013 |
GTX 780 Ti |
0.021 |
|
2016 |
Quadro P6000 |
0.051 |
|
2020 |
RTX A6000 |
0.129 |
|
2022 |
L40S |
0.262 |
|
2025 |
RTX PRO 6000 Blackwell |
0.21 |
~100× по эффективности. Пик «классической» эффективности приходится на 2022 (Ada/L40S); датацентровые карты 2024–25 местами проигрывают по TFLOPS/Вт, потому что сознательно меняют эффективность на абсолютную плотность вычислений в стойке. Главные драйверы роста эффективности — техпроцесс (90 нм → 3 нм) и архитектурные улучшения, а не частоты.
4. Дуэль NVIDIA vs AMD
Если по годам отмечать, чей одиночный флагман имел больший FP32:
|
Период |
Лидер |
Контекст |
|---|---|---|
|
2007–2008 |
AMD |
FireStream 9170/9270 |
|
2010–2013 |
AMD |
GCN: HD 6970, HD 7970 GHz, R9 290X |
|
2014 |
NVIDIA |
Titan Black (5.6) vs FirePro W9100 (5.2) |
|
2015 |
AMD |
Fury X (8.6) |
|
2016–2020 |
NVIDIA |
Pascal → Ampere, разворот в ИИ |
|
2021 |
AMD |
Instinct MI250X (47.9) |
|
2022 |
NVIDIA |
L40S / Hopper |
|
2023–2024 |
AMD |
Instinct MI300A/MI325X (81.7) |
|
2025 |
NVIDIA |
Blackwell (126) |
Картина волнообразная и привёл я её только для интриги, чтобы хоть как-то дать AMD шанс. Ведь по сырому FP32 AMD регулярно выбивала лидерство — в эру GCN и снова на свежих Instinct. Но именно сырой FP32 — обманчивая метрика для современного мира. Эра ИИ выигрывается не на FP32, а на софте и FP16/BF16/FP8. Здесь NVIDIA с tensor-ядрами (начиная с V100, 2017) и экосистемой CUDA построила ров, который цифрами одного только FP32 не виден: V100 дал ~125 TFLOPS tensor-FP16, A100 — ~312, H100 — ~990 (публичные данные вендора). То есть «дуэль по FP32» — это про прошлое железа как графического ускорителя; настоящая битва ушла в плоскость, которую FP32 не измеряет.
Поэтому, +1 график с FP16-дуэлью, где NVIDIA стабильно впереди. А если на это накинуть ещё и софт для ИИ…
5. Что ещё видно в данных
-
Техпроцесс: 90 нм (2006) → 28 нм (плато 2012–2015, «застрявший узел») → 16/12/7 → 3 нм (MI355X, 2025).
-
VRAM флагмана: 0.77 ГБ (8800 GTX) → 12–24 ГБ (середина 2010-х) → 48 ГБ (A6000) → 192–288 ГБ (MI300/MI355X). Память растёт даже быстрее, чем компьют, — потому что модели ИИ упираются в неё.
-
«Застрявшие» 28 нм: четыре года (2012–2015) индустрия сидела на одном узле — и именно тогда AMD держала паритет/лидерство по FP32. Как только пошёл рывок по техпроцессу и появились tensor-ядра, преимущество качнулось к NVIDIA.
Открытый датасет — забирайте
Выложили очищенный дамп нашей базы характеристик GPU — для тех, кто хочет покопать сам:
📦 Скачать: gpuark.com/datasets — файлы gpuark-gpu-specs.csv, gpuark-benchmarks.csv, gpuark-gpu-dataset.sqlite, либо всё одним архивом gpuark-gpu-dataset.tar.gz.
-
13 566 GPU (поля: вендор, производитель, дата выпуска, архитектура, техпроцесс, транзисторы, частоты, объём и тип памяти, шина, FP16/FP32/FP64/BF16/TF32/INT8, TDP, NVLink, CUDA SM и др.) + 993 результата сторонних бенчмарков (джойнятся по
gpu_id). -
Форматы: CSV (Excel/pandas) и SQLite (готовые SQL-запросы) — две таблицы
gpu_specsиbenchmarks. -
Лицензия: CC BY 4.0 (атрибуция на gpuark.com).
Выводы
-
FLOPS росли почти ровной экспонентой (~37%/год) — но «бесплатный» рост закончился, дальше платим TDP и переездом в стойку.
-
Реальный прогресс измеряется не ваттами и не сырым FP32, а производительностью на ватт (×100) — и она держится на техпроцессе.
-
AMD по «сырым» числам бодалась и лидировала чаще, чем принято думать; но эру ИИ определил не FP32, а tensor + софт.
Данные открыты — если найдёте в них что-то, чего мы не заметили, напишите.
ссылка на оригинал статьи https://habr.com/ru/articles/1039278/