20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)

от автора

Мы держим каталог видеокарт и накопили базу на 13 566 GPU — от GeForce 256 (1999) до Blackwell и MI355X (2025). В какой-то момент стало интересно, как менялась индустрия: насколько выросли FLOPS, во что упёрся TDP, и кто вёл в гонке NVIDIA против AMD в разные годы.

Ниже — разбор по нашим данным. Сразу скажу, что зафиксировал: методологию (что и как считал, где данные шумят) и открытый датасет в конце статьи — забирайте и копайте вместе с нами 😊

TL;DR

  • Пиковый FP32 флагмана вырос ~в 400 раз за 19 лет: 0.3 TFLOPS (GeForce 8800 GTX, 2006) → 126 TFLOPS (Blackwell, 2025). Это почти ровная экспонента в полулог-масштабе.

  • TDP полз медленно (155 → 300 Вт за 2006–2020), а потом рванул в датацентре: 700 Вт (H100), 1000 Вт (MI325X / B200), 1400 Вт (MI355X, 2025).

  • При этом производительность на ватт выросла ~в 100 раз — то есть «жрут больше», но «делают на ватт кратно больше». Главный драйвер — техпроцесс (90 нм → 3 нм) и архитектура.

  • Дуэль NVIDIA/AMD по пиковому FP32 менялась волнами: AMD вела в начале 2010-х (эра GCN) и снова в 2023–24 (Instinct MI300/MI325), NVIDIA — в 2016–2020 (разворот в ИИ) и в 2025 (Blackwell). Но «сырой FP32» — обманчивая метрика, и об этом ниже.

Методология

  • Что такое эти TFLOPS и почему они «теоретические». Все FP32-числа в статье — это теоретический пик, который вендоры считают по формуле:

    FP32 TFLOPS = (число шейдерных ALU / CUDA-ядер) × boost-частота, Гц × 2 / 10¹²

    Множитель ×2 — потому что инструкция FMA (fused multiply-add) делает умножение и сложение за один такт, то есть две операции. Это потолок, а не реальная производительность: на практике достигается ощутимо меньше — обычно 60–90% на хорошо оптимизированных compute-bound ядрах и кратно меньше на memory-bound, — потому что мешают пропускная способность памяти, занятость SM, состав инструкций и тот факт, что boost-частота не держится постоянно под нагрузкой и тепловым лимитом. Расхождение теории и практики — это норма. Теоретический пик ценен другим: он считается по одной формуле для всех карт и поколений, поэтому это честная сопоставимая линейка для исторического сравнения — её и указывают в спеках, её и используем мы. Реальную производительность меряют уже бенчмарками (они в датасете отдельной таблицей).

  • Источник — наша база спецификаций. «Флагман года» = карта с максимальным fp32_performance, выпущенная в этом году, отдельно по NVIDIA и AMD.

  • Для кривой TDP/эффективности я исключил dual-GPU карты (GTX 295, HD 6990, R9 295X2 и т. п.) — иначе TDP и FLOPS задваиваются и ломают тренд.

  • Где данные шумят:

    • vendor проставлен у ~2 360 из 13 566 карт (остальное — в основном OEM-варианты партнёрских плат). Медианы считаю по размеченной выборке; пики флагманов размечены полностью.

    • FP16/tensor-производительность между вендорами в лоб не сравнима — из-за structured sparsity. Начиная с Ampere (A100), NVIDIA в спеках указывает тензорные FP16/BF16 уже с учётом sparsity — это ×2 к «плотному» (dense) значению (фича обрабатывает разреженные матрицы вдвое быстрее). В нашей базе для таких карт хранится именно эта «sparse»-цифра. У AMD аналогичной строки в спеках нет — там dense. Поэтому сырой столбец FP16 у NVIDIA (A100+) нужно делить на 2, чтобы сравнивать с AMD честно: A100 = 624 (sparse) → 312 dense, H100 = 1979 → ~990 dense. Раздел про «AI-перелом» ниже опирается на эти приведённые к dense числа.

1. FLOPS: почти ровная экспонента

Пиковый FP32 одиночного флагмана по годам (NVIDIA):

Год

Флагман

FP32, TFLOPS

2006

GeForce 8800 GTX

0.3

2010

GeForce GTX 580

1.6

2013

GeForce GTX 780 Ti

5.3

2016

Quadro P6000

12.6

2017

Tesla V100

15.7

2020

RTX A6000

38.7

2022

L40S

91.6

2025

RTX PRO 6000 Blackwell

126.0

≈400× за 19 лет — это CAGR около 37% в год. В полулогарифмическом масштабе линия почти прямая: классическая экспонента, которая лишь недавно начала загибаться на «настольном» сегменте и переехала в датацентр.

FP32 флагманов NVIDIA и AMD по годам (лог-шкала)

График: FP32 флагманов NVIDIA и AMD по годам (лог-шкала)

2. TDP: тихий рост, затем датацентровый взрыв

Год

Карта

TDP, Вт

2006

GeForce 8800 GTX

155

2010

GTX 580

244

2017

Tesla V100

250

2020

RTX A6000

300

2022

H100 SXM

700

2024

MI325X / B200

1000

2025

MI355X

1400

Полтора десятилетия TDP флагмана держался в коридоре 150–300 Вт. Перелом — после 2020-го, и он целиком датацентровый: ускорители для ИИ (SXM/OAM-модули) выскочили на 700–1400 Вт, потому что их охлаждают не кулером в корпусе, а жидкостью в стойке. Настольный потолок отдельно упёрся в ~450–600 Вт (RTX 4090/5090).

Любопытный разрыв виден, если посмотреть отдельно на потребительские флагманы NVIDIA: GeForce-флагман семь лет (2013–2019) простоял ровно на 250 Вт — GTX 780 Ti, Titan X, 1080 Ti, 2080 Ti, — и прорвал этот потолок только с RTX 3090 (350 Вт, 2020), дальше 4090 (450 Вт) и 5090 (575 Вт). А вот датацентровые ускорители ушли на 700–1400 Вт почти сразу. Похоже, выше игровой TDP пускал не столько кремний, сколько рынок — корпуса, блоки питания и привычки покупателей; в стойке таких ограничений нет, и там ватты росли без оглядки. (Это интерпретация: спека хранит ватты, а не намерения — но 250-ваттное плато на семь поколений в данных видно отчётливо.)

TDP флагманов, с пометкой «настольные» vs «датацентровые модули»

График: TDP флагманов, с пометкой «настольные» vs «датацентровые модули»

3. Производительность на ватт: вот это и есть прогресс

Если смотреть только на TDP, кажется «всё хуже, карты жрут как не в себя». Но FP32 на ватт рассказывает обратное:

Год

Флагман

TFLOPS/Вт

2006

8800 GTX

0.002

2013

GTX 780 Ti

0.021

2016

Quadro P6000

0.051

2020

RTX A6000

0.129

2022

L40S

0.262

2025

RTX PRO 6000 Blackwell

0.21

~100× по эффективности. Пик «классической» эффективности приходится на 2022 (Ada/L40S); датацентровые карты 2024–25 местами проигрывают по TFLOPS/Вт, потому что сознательно меняют эффективность на абсолютную плотность вычислений в стойке. Главные драйверы роста эффективности — техпроцесс (90 нм → 3 нм) и архитектурные улучшения, а не частоты.

TFLOPS/Вт по годам (двойная линия N/AMD)

График: TFLOPS/Вт по годам (двойная линия N/AMD)

4. Дуэль NVIDIA vs AMD

Если по годам отмечать, чей одиночный флагман имел больший FP32:

Период

Лидер

Контекст

2007–2008

AMD

FireStream 9170/9270

2010–2013

AMD

GCN: HD 6970, HD 7970 GHz, R9 290X

2014

NVIDIA

Titan Black (5.6) vs FirePro W9100 (5.2)

2015

AMD

Fury X (8.6)

2016–2020

NVIDIA

Pascal → Ampere, разворот в ИИ

2021

AMD

Instinct MI250X (47.9)

2022

NVIDIA

L40S / Hopper

2023–2024

AMD

Instinct MI300A/MI325X (81.7)

2025

NVIDIA

Blackwell (126)

Картина волнообразная и привёл я её только для интриги, чтобы хоть как-то дать AMD шанс. Ведь по сырому FP32 AMD регулярно выбивала лидерство — в эру GCN и снова на свежих Instinct. Но именно сырой FP32 — обманчивая метрика для современного мира. Эра ИИ выигрывается не на FP32, а на софте и FP16/BF16/FP8. Здесь NVIDIA с tensor-ядрами (начиная с V100, 2017) и экосистемой CUDA построила ров, который цифрами одного только FP32 не виден: V100 дал ~125 TFLOPS tensor-FP16, A100 — ~312, H100 — ~990 (публичные данные вендора). То есть «дуэль по FP32» — это про прошлое железа как графического ускорителя; настоящая битва ушла в плоскость, которую FP32 не измеряет.

Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)

Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)

Поэтому, +1 график с FP16-дуэлью, где NVIDIA стабильно впереди. А если на это накинуть ещё и софт для ИИ…

AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала

График: AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала

5. Что ещё видно в данных

  • Техпроцесс: 90 нм (2006) → 28 нм (плато 2012–2015, «застрявший узел») → 16/12/7 → 3 нм (MI355X, 2025).

  • VRAM флагмана: 0.77 ГБ (8800 GTX) → 12–24 ГБ (середина 2010-х) → 48 ГБ (A6000) → 192–288 ГБ (MI300/MI355X). Память растёт даже быстрее, чем компьют, — потому что модели ИИ упираются в неё.

  • «Застрявшие» 28 нм: четыре года (2012–2015) индустрия сидела на одном узле — и именно тогда AMD держала паритет/лидерство по FP32. Как только пошёл рывок по техпроцессу и появились tensor-ядра, преимущество качнулось к NVIDIA.

Открытый датасет — забирайте

Выложили очищенный дамп нашей базы характеристик GPU — для тех, кто хочет покопать сам:

📦 Скачать: gpuark.com/datasets — файлы gpuark-gpu-specs.csv, gpuark-benchmarks.csv, gpuark-gpu-dataset.sqlite, либо всё одним архивом gpuark-gpu-dataset.tar.gz.

  • 13 566 GPU (поля: вендор, производитель, дата выпуска, архитектура, техпроцесс, транзисторы, частоты, объём и тип памяти, шина, FP16/FP32/FP64/BF16/TF32/INT8, TDP, NVLink, CUDA SM и др.) + 993 результата сторонних бенчмарков (джойнятся по gpu_id).

  • Форматы: CSV (Excel/pandas) и SQLite (готовые SQL-запросы) — две таблицы gpu_specs и benchmarks.

  • Лицензия: CC BY 4.0 (атрибуция на gpuark.com).

Выводы

  1. FLOPS росли почти ровной экспонентой (~37%/год) — но «бесплатный» рост закончился, дальше платим TDP и переездом в стойку.

  2. Реальный прогресс измеряется не ваттами и не сырым FP32, а производительностью на ватт (×100) — и она держится на техпроцессе.

  3. AMD по «сырым» числам бодалась и лидировала чаще, чем принято думать; но эру ИИ определил не FP32, а tensor + софт.

Данные открыты — если найдёте в них что-то, чего мы не заметили, напишите.

ссылка на оригинал статьи https://habr.com/ru/articles/1039278/