Привет, Хабр! Сегодня посвятим наш спич разговорам о видеокартах, их различиям и вопросам импортозамещения технологий.
Все мы знаем, что графические процессоры — это специализированные чипы, которые могут выполнять параллельные вычисления и расчеты одновременно и намного быстрее, чем центральные процессоры. Первоначально они были разработаны для обработки компьютерной графики. По мере роста спроса на более качественную графику GPU-чипам требовалось повысить свои вычислительные возможности. Эта вычислительная мощность позволяла обрабатывать множество матричных операций и линейную алгебру лучше, чем это делали центральные процессоры.
Что делает GPU хорошо подходящими для задач глубокого обучения, так это наличие огромного количества ядер, которые могут одновременно обрабатывать большие объемы данных. Хотя эти ядра не сильно отличаются по своей сути от вычислительных ядер в CPU, их количество на порядок выше, что позволяет эффективно выполнять операции параллельно. В отличие от CPU, которые оптимизированы для последовательных вычислений, GPU идеально подходит для массовых параллельных операций, таких как матричные умножения и операции с большими массивами данных, что особенно важно для задач глубокого обучения.
Современные GPU имеют еще и тензорные ядра: аппаратные блоки, которые могут обрабатывать тензорные операции, такие как умножение матриц, намного лучше, чем обычные процессоры. Самое интересное, что такие ядра есть не только в серверных, но и в потребительских решениях. Вот только в потребительских видеокартах серии RTX тензорные ядра в первую очередь предназначены для реализации таких технологий, как DLSS (Deep Learning Super Sampling), что снижает нагрузку на графические процессоры и улучшает производительность в играх. Хотя потребительские GPU с тензорными ядрами могут быть использованы и для ИИ-задач, основное их назначение — улучшение графических процессов и повышение качества визуализации, а не прямое участие в нейросетевых вычислениях.
С параллельной архитектурой, которая предлагает тысячи ядер для одновременных операций с плавающей запятой, GPU могут ускорить обучение моделей машинного обучения и статистический анализ больших данных на порядки. Стоит однако разделять корпоративные задачи и потребительские. Ведь если в домашнем использовании нейроалгоритмы, заложенные в той же программе Topaz Video AI помогают нам поработать с улучшением видео, то в производственном формате на видеокарты возложена работа с гораздо большими объемами данных, так что одной-двумя потребительскими вариантами уровня RTX 4060 здесь, зачастую, не ограничиться.
Все-таки ЦОД — это не какой-то там производительный домашний ПК для личных задач, на котором можно даже собственную нейросеть развернуть и обучить. Здесь речь идет о гораздо более серьезной производительности и масштабах в области глубокого обучения. К слову, свое место в акселерации есть и у CPU, и у ASIC, и у FPGA и у TPU, но GPU являются максимально гибкими в своем применении, что неоднократно подтверждено рыночной аналитикой.
1. Основные отличия серверных и потребительских видеокарт
При сравнении профессиональных и настольных GPU решающую роль играют показатели производительности. Так, серверные GPU предназначены для задач с высокой степенью многопоточности, для чего имеют больший объем производительной памяти в сравнении с настольными аналогами, что делает профессиональные графические процессоры важным компонентом ЦОД’ов и облачных вычислительных сред, где параллельная обработка имеет важное значение. Но… давайте покопаемся в этом поподробнее.
1.1. Типы графических процессоров
-
Потребительские (NVIDIA GeForce или AMD Radeon)
Потребительские графические процессоры созданы для широкой аудитории пользователей (геймеров, блогеров, дизайнеров) с различными вычислительными потребностями. Настольные решения, как правило, оптимизированы для игр, 3D-моделирования, а также подходят для машинного обучения, но не в промышленных форматах, естественно. Они обеспечивают превосходную производительность для большинства приложений и игровых сценариев. Большего от них и не требуется.
-
Профессиональные (NVIDIA B200 / A100, AMD Instinct)
Серверные графические процессоры предназначены для выполнения гораздо более требовательных задач обработки, манипулирующих очень большими наборами данных. Они лучше всего подходят для задач машинного обучения, научного моделирования и массовой обработки информации, а еще отлично проявляют себя в средах, где надежность и время безотказной работы 24/7 имеют решающее значение.
Кроме того, у серверных видеокарт нет необходимости поддерживать работу физического вывода изображения через DisplayPort или HDMI, что позволяет инженерам оптимизировать референсы графических решений исключительно под вычислительные задачи. Центры обработки данных отдают приоритет чистой производительности, используя тысячи (десятки и иногда сотни тысяч) графических процессоров, оптимизированных и объединенных для работы в единой вычислительной фабрике.
1.2. Ключевые различия
-
Архитектура: серверные и потребительские видеокарты могут иметь схожие базовые компоненты, такие как ядра CUDA (в случае NVIDIA) или Stream Processors (в случае AMD), но их архитектуры различаются по производительности и масштабируемости. Для серверных видеокарт часто используют более специализированные типы памяти с большой емкостью (до 80 Гб и более), такие, как HBM2 и HBM2E. Потребительские решения в лице GeForce RTX, например, обычно используют более доступные типы памяти: GDDR6 и GDDR6X, — с меньшей емкостью и пропускной способностью, чем у серверных карт.
-
Решения по охлаждению: серверные графические процессоры часто имеют пассивные системы теплоотвода, полагающиеся на вентиляторы самого сервера для эффективного охлаждения при плотной установке видеокарт. В отличие от этого, для настольных GPU приоритет отдается активному охлаждению, так как в ПК нет таких мощных продувочных вентиляторов, как в серверных системах, и устанавливаются они редко в большем количестве, чем одна. В то же время новые GPU-решения, интегрированные в системные платы, могут требовать теплоотвод на основе жидкостного охлаждения.
-
Энергопотребление: серверные графические процессоры рассчитаны на эффективную работу при больших нагрузках, часто потребляя больше энергии, но обеспечивая при этом более высокую производительность на Ватт. В потребительской RTX 5070 ожидается TDP в рамках 220 Ватт, а у одной только NVIDIA B200 — порядка 1000 Ватт. На один сервер таких видеокарт устанавливается в среднем 4 или 8. Как итог: в домашних условиях мы сможем получить фотореалистичную картинку в современной AAA-игре, а чтобы получить бесперебойно работающую модель нейросети на уровне ChatGPT 3.5 или Claude, потребуется профессионально спроектированный подвод электропитания большой мощности. А если это десятки или сотни таких серверов, то может потребоваться ну очень мощный источник питания, похожий на небольшой ядерный реактор.
Ускорители ИИ следующего поколения будут сосредоточены на оптимизации энергоэффективности, поскольку многие текущие решения потребляют сотни Ватт, что создает проблемы с тепловыми и энергетическими затратами, особенно при масштабировании.
1.3. Различия по производительности
-
Пропускная способность GPU: серверные графические процессоры предлагают более высокую скорость обработки и передачи данных между своими ядрами и видеопамятью. Количество ядер в серверных GPU превосходит десктопные решения, так как потребительские карты больше ориентированы на графику, где задачи, связанные с обработкой данных, менее интенсивны, чем в вычислительных приложениях.
-
Пропускная способность памяти: видеопамять серверных видеокарт также обладает вдвое большей емкостью и обеспечивает большую пропускную способность, что имеет решающее значение в операциях с обработкой больших наборов данных. В частности, более быстрая передача информации предотвращает простаивание графического процессора при ожидании данных.
Тип видеокарты |
Серверная видеокарта |
Серверная видеокарта |
Потребительская видеокарта |
Модель видеокарты |
NVIDIA B200 |
NVIDIA A100 |
NVIDIA RTX 4090 |
Архитектура |
Grace Blackwell |
Ampere |
Ada Lovelace |
Пропускная способность памяти |
до 8 Тб/с |
до 1,9 Тб/с |
около 1,0 Тб/с |
Видеопамять |
192 Гб HBM3E |
40 Гб HBM2 / 80 Гб HBM2e |
24 Гб GDDR6X |
Применение |
Высокопроизводительные вычисления, AI/ML, научные вычисления |
Высокопроизводительные вычисления, AI/ML, научные вычисления |
Игры, редактирование видео, 3D-рендеринг |
-
Параллельная обработка: графические процессоры отлично справляются с параллельной обработкой, что позволяет им выполнять несколько вычислений одновременно. Здесь особо стоит упомянуть тензорные ядра, оптимизированные для ускорения операций с тензорами, которые являются неотъемлемой частью многих вычислений в области ИИ и глубокого обучения. Благодаря высокой параллельности, оптимизированной работе с матрицами и поддержке низкоуровневых операций с плавающей запятой, тензорные ядра значительно ускоряют обучение моделей и обработку больших объемов данных, что делает их незаменимыми для современных ИИ-технологий. Разница в том, что серверные видеокарты предлагают во многом больше тензорных ядер, чем «домашние» решения.
-
Масштабируемость: системы на базе графических процессоров могут масштабироваться до уровня суперкомпьютеров, удовлетворяя растущие потребности приложений ИИ. В то время как на арене домашних ПК видеокарты, как правило, ограничены стандартным интерфейсом PCIe и лишь некоторые топовые решения могут объединяться посредством технологии NVLink — высокоскоростной интерфейс связи, разработанный NVIDIA для соединения нескольких GPU (или GPU и CPU) в одной системе. Ранее в серверной среде использовалось решение SXM/IB (InfiniBand), которое обеспечивает интерконнект не просто между GPU, а между серверами, серверными кластерами и другими вычислительными узлами. Однако в современных суперкомпьютерах в TOP500 активно используется RoCE фабрика на чипах 25,6 Тбит/с. Далее по тексту мы чуть подробнее рассмотрим вопрос масштабируемости.
Выбор между серверными и настольными графическими процессорами зависит от конкретных требований поставленной задачи. Для рабочих нагрузок, требующих высокой производительности и надежности, серверные графические процессоры являются очевидным выбором. Напротив, для игр и общего использования настольные графические процессоры предлагают более экономичное решение без ущерба для производительности. Понимание этих различий необходимо для принятия обоснованных решений при выборе графического процессора.
1.4. Поддержка программного обеспечения как залог стабильности
И NVIDIA, и AMD тесно сотрудничают с независимыми поставщиками программного обеспечения, такими как Autodesk, Adobe и Dassault, чтобы сертифицировать свои профессиональные видеокарты для использования с их ПО. Это позволяет гарантировать максимальную совместимость и свести к минимуму вероятность сбоев в работе профессиональных видеокарт. Как итог: драйверы, разработанные для серверных графических процессоров, тестируются более тщательно и, следовательно, обновляются реже, в отличие от их потребительских аналогов. А это, в свою очередь, позволяет сократить время простоя, необходимое для обновления систем, которые должны работать круглосуточно и без выходных.
Хорошим примером являются приложения САПР: большинство из них используют OpenGL (API, для которого профессиональные видеокарты в высокой степени оптимизированы), — в то время как потребительские видеокарты оптимизированы для API Direct3D и Vulkan. Это не значит, что профессиональные карты не могут работать с Direct3D и Vulkan, а потребительские — с OpenGL. Они просто не оптимизированы для них, поэтому в таких нагрузках как гейминг, 3D-рендеринг или редактирование видео значительного преимущества от серверных решений домашний пользователь не получит.
Иначе говоря, сертификация гарантирует, что серверные видеокарты из коробки настроены для бесперебойной работы определенных приложений, в основном за счет профессиональных драйверов, что обеспечивает надежность и, в некоторых случаях, значительное преимущество в производительности по сравнению с потребительскими картами с идентичным аппаратным обеспечением. Потребительские карты обычно настраиваются для видеоигр, где кадры должны рендериться с высокой частотой. Для достижения высокой частоты кадров аппаратное обеспечение видеокарты обычно доводится до предела с помощью разгона, большую часть которого выполняют сами производители и партнеры по платам. Отсюда и появляются версии видеокарт с подписью OC (OverClocked).
С другой стороны, при профессиональной работе рендеринг одного кадра очень сложного проекта или обучение сложной модели машинного обучения может занять несколько дней. В отличие от игр, эти задачи требуют высокого уровня стабильности, поскольку один сбой может привести к дорогостоящим задержкам и значительным потерям времени на устранение проблемы. Для среднестатистического геймера случайные сбои не столь страшны, сколько для крупных бизнесов, которые могут потерять миллионы. Такие ситуации попросту недопустимы.
Вы, наверное, обратили внимание, что потребительские видеокарты выходят на рынок раньше серверных решений. Это делается для обеспечения максимальной надежности профессиональных продуктов. Массовый пользователь в этом случае выступает своеобразным бета-тестером конечного продукта, в то время как у производителя появляется возможность устранить все выявленные ошибки и разработать стабильные и оптимизированные драйверы.
1.5. Приложения с ускорением на GPU в области искусственного интеллекта
Как мы уже поняли, приложения ИИ, особенно основанные на глубоком обучении, требуют обработки больших наборов данных и выполнения сложных математических операций. Возможности параллельной обработки информации графическими процессорами делают их идеальными для подобных задач. В отличие от центральных процессоров, которые предназначены для последовательной обработки нескольких сложных задач, графические процессоры могут обрабатывать тысячи более простых параллельных задач одновременно. Это имеет решающее значение для обучения нейронных сетей, где миллионы параметров необходимо настраивать итеративно, и для вывода, где эти модели делают прогнозы на основе новых данных.
-
Распознавание изображений и речи
В распознавании изображений используются модели глубокого обучения, такие как сверточные нейронные сети (CNN), которые используются для идентификации и классификации объектов на различных типах картинок. Графические процессоры ускоряют обучение этих моделей, эффективно обрабатывая огромное количество вычислений, необходимых для обработки больших наборов данных изображений. Аналогично, в распознавании речи такие модели, как рекуррентные нейронные сети (RNN), выигрывают от ускорения GPU, позволяя преобразовывать речь в текст в реальном времени.
-
Обработка естественного языка (NLP)
Приложения, занимающиеся машинным переводом, анализом поведения и генерацией текста, используют такие модели, как Transformers («Трансформер») и Bidirectional Encoder Representations from Transformers/BERT («двунаправленные презентации кодировщика для Трансформеров»). Эти модели из-за своей сложной архитектуры требуют высокой вычислительной мощности, которую обеспечивают графические процессоры, тем самым сокращая время обучения с недель до дней.
-
Автономные транспортные средства
Беспилотные автомобили используют модели ИИ для интерпретации данных датчиков, принятия решений и обучения на новых сценариях. И здесь графические процессоры играют решающую роль в обработке огромного объема данных, генерируемых датчиками транспортного средства в режиме реального времени, обеспечивая быстрое и точное принятие решений. Здесь, например, можно вспомнить о процессорах NVIDIA Tegra и Orin, которые обеспечивают продвинутые вычисления прямо на борту автомобилей.
На самом деле сфер применения GPU и приложений ИИ с различными сценариями распознаваний довольно много. При этом потребительские видеокарты также участвуют в этих сценариях: например, кто-то любит оцифровывать старые кинофильмы и апскейлить их с помощью нейронных сетей наподобие Topaz AI. Все вычисления при этом происходят на компьютере пользователя, а не в облаке. Та же модель YOLOv3 может использоваться для распознавания видеоконтента, задействуя мощности потребительских видеокарт. А вот когда речь заходит о множественной обработке — тут уже не обойтись без профессиональных решений.
2. Возможности серверных GPU и ограничения потребительских GPU
2.1. Охлаждение
Профессиональные GPU разработаны для плотной и эффективной установки в системы, оставаясь при этом холодными и работоспособными. Раньше серверные видеокарты (и даже референсные потребительские решения) оснащались системами охлаждения на базе вентиляторов турбинного типа. Это позволяло графическим картам плотно укладываться в корпус шасси и при этом эффективно охлаждаться. В частности, такие вентиляторы были характерны для решений NVIDIA. Однако современные серверные графические процессоры, такие как A100 и H100, используют более эффективные системы охлаждения, состоящие из радиаторов, и использующие в качестве активного компонента вентиляторы самого сервера.
Потребительские графические процессоры имеют тенденцию использовать охлаждение вентилятором снизу и требует свободного пространства под видеокартой. Поэтому в случаях с несколькими такими графическими процессорами близкое расположение других видеокарт сделает охлаждение вентиляторами крайне неэффективным и неизбежно приведет к неоптимальным температурам как для GPU, так и для других компонентов, расположенных в непосредственной близости к ним.
Как итог: профессиональные видеокарты разработаны для плотной компоновки в системе, при этом должны оставаться холодными и автономными. В некоторых случаях, как мы уже отмечали выше, в сервере (или во всем серверном кластере) может применяться даже жидкостное охлаждение.
2.2. ОЗУ графического процессора
Где профессиональная карта действительно вырывается вперед, так это в емкости памяти. В отличие от потребительских рабочих нагрузок, таких как игры, где потребление памяти редко превышает предел в 10 Гб, профессиональные рабочие нагрузки, особенно очень сложные, часто могут потреблять больше VRAM, чем предлагают большинство потребительских GPU.
Профессиональные видеокарты призваны решить эту проблему, предлагая большую емкость видеопамяти даже в моделях среднего уровня. 16 Гб видеопамяти GPU — это хорошее представление большинства потребительских GPU текущего поколения, и только RTX 4090 имеет больше — 24 Гб. Так что это довольно существенный недостаток для потребительских GPU, если вы имеете дело с тяжелыми для памяти необработанными данными.
2.3. Масштабируемость
Еще одна функция GPU, которая управляет обучением нейросетей, — это возможность увеличить пропускную способность путем создания кластеров из нескольких GPU, где одновременно работают несколько графических чипов. Это особенно полезно при обучении больших масштабируемых моделей с миллиардами и триллионами параметров. Наиболее эффективным подходом для такого обучения является горизонтальное масштабирование GPU с использованием таких интерфейсов, как NVLink, InfiniBand или более открытый вариант с 400GE RoCE.
Эти высокоскоростные интерфейсы позволяют GPU обмениваться данными напрямую, минуя узкие места CPU. Например, с помощью системы коммутаторов NVLink можно объединить 256 графических процессоров NVIDIA A100 в кластер и получить пропускную способность 57,6 Тб/с. Кластер такого размера может значительно сократить время, необходимое для обучения больших моделей глубокого обучения. К слову, в случае с будущими NVIDIA B200 заявлена возможность объединения до 576 GPU в одну систему, при этом пропускная способность каждой видеокарты составит до 8 Тб/с.
Современное видение ЦОД от NVIDIA акцентирует внимание на использовании ускоренных вычислений и сетевых решений для ИИ. На примере одного из свежих AI кластеров NVIDIA выделяется роль RoCE (RDMA over Converged Ethernet) как технологии, обеспечивающей низкую задержку и высокую пропускную способность в сети. Кластеры используют графические процессоры с высокой параллельной производительностью, а также сетевые решения, такие как NVIDIA BlueField, которые интегрируют вычислительные и сетевые компоненты, обеспечивая масштабируемость и эффективность для выполнения сложных ИИ-алгоритмов в облачных и централизованных вычислительных средах.
2.4. Потребление энергии
Для пущей ясности внесем в наш спич немного кринжатинки в плане экономической выгоды. В случае с потребительскими системами, можно привести следующий пример масштабирования: если наша потенциальная система имеет материнскую плату, которая может принять 4 двуслотовых GPU, — получим следующие значения:
-
Серверное решение: 4× NVIDIA A100 = 320 Гб памяти и 1200 Вт мощности
-
Серверное решение: 4× NVIDIA B200 = 768 Гб памяти и 4000 Вт мощности
-
Настольное решение: 4× NVIDIA RTX 4090 = 96 Гб памяти и 1800 Вт мощности
Но… (а вот и самый кринж) RTX 4090 — это трехслотовый графический процессор, так что подобная связка даже нереальна. На самом деле на любую потребительскую системную плату формата ATX или eATX поместятся только две видеокарты RTX 4090, но для простоты сравнения (вспомним о фермах и временах майнинга на видеокартах) предположим, что мы установили 4 подобных GPU. Это не маленькая разница. Чтобы хоть как-то соответствовать системе из четырех NVIDIA A100 с точки зрения оперативной памяти GPU, вам понадобятся 2-3 отдельные системы, потребляющие ощутимо больше энергии. И, кстати, важна ведь не только память GPU. По мере ее увеличения вам необходимо параллельно увеличивать и системную оперативную память.
3. Лучшие GPU для машинного обучения: плюсы, минусы и альтернативы
NVIDIA A100 считается оптимальным вариантом по соотношению цены и мощности. Он обеспечивает до 20 раз большую скорость, чем предыдущие поколения, для ускорения требовательных рабочих нагрузок в ИИ. В то же время высокие характеристики A100 избыточны для проектов небольшого масштаба или менее требовательных приложений. Впрочем, у «зеленого» лагеря достаточно других решений для работы с ИИ-приложениями: среди них H100 NVL, Quadro RTX 8000 (2018 года), RTX A6000 (2020 года), а также экс-потребительские варианты в лице RTX 4090 / 4070 / 3090 Ti.
У «красных» среди топовых решений можно выделить AMD Radeon Instinct MI300. Этот GPU является одним из ведущих вариантов среди решений для обработки моделей машинного обучения, обеспечивает впечатляющую вычислительную мощность и пропускную способность памяти 5,3 Тб/с. Ее единственным минусом можно с натяжкой назвать невозможность подключения к мониторам ввиду отсутствия видеовыхода.
3.1. А есть хоть кто-то, кроме NVIDIA и AMD?
Из популярных решений вспоминается модуль Google TPU v4 Pod, который предлагает совокупную производительность до 297 TFLOPS bf16 (эквивалент FP16) и 393 TFLOPS int8. Но не поддерживает форматы, отличные от bf16 и int8, что может ограничить его универсальность для определенных задач глубокого обучения. В то же время эта система имеет специализированное оборудование для разреженных вычислений. Это делает ее ценной для таких приложений, как рекомендательные алгоритмы и лингвистические вычисления.
Среди менее громких на рынке решений можно выделить «многочиплетный» процессор для обработки задач ИИ — Ascend 910B — производства китайского концерна Huawei. Этот чип построен на архитектуре Da Vinci и может обеспечивать производительность до 256 Тфлопс при работе в операциях с одноточечными спектрами матриц и плавающей запятой (FP16), что делает его подходящим для решения сложных задач в области ИИ и обработки данных.
Также можно упомянуть продукцию компаний Moore Threads и Biren Technology. Последняя, кстати, является одной из главных надежд Китая на то, чтобы бросить вызов NVIDIA. Флагманским GPU компании считается чип Biren BR100. Что касается Moore Threads — ее знаковыми картами являются модели MTT S80 (предназначена для игровых и профессиональных приложений, предлагая поддержку DirectX 12 и Vulkan) и MTT S4000 (ориентирована на серверные задачи и предлагает большую емкость памяти в отличие от своего потребительского собрата).
3.2. А что с импортозамещением и российскими решениями?
Неужели это все? А как же импортозамещение? Есть ли что-то похожее на отечественном рынке или нас спасет только параллельный импорт? Скажем так…, есть одно решение — модули NM Card Mini и NM Quad от российской компании НТЦ «Модуль». Это специализированные модули для ускорения нейросетевых вычислений на базе DSP-микросхемы К1879ВМ8Я с архитектурой NeuroMatrix.
Уже сейчас доступно решение на базе сервера Fplus «Восход» SR-221 и 6 вычислительных модулей NM Card Mini для реализации функций компьютерного зрения, работы с текстом и анализа данных на базе предобученных нейросетевых моделей. А в 2025 году Fplus начнет выпуск серверов с более производительными нейроускорителями NM Quad 20GB и NM Card Mini 5GB. Собирать их будут на заводах в России, а в качестве ОС на сервере с установленным в него NM QUAD будет использоваться ОС Astra Linux или ОС «ОСнова». Эти серверы будут ориентированы на реализацию сценариев автоматизации распознавания изображений и символов, детекции и классификации объектов, поиска и извлечения информации, распознавания видеопотока. В первый год планируется выпустить 100 единиц техники, а в 2026-2027 гг. выйти на обороты в тысячи устройств. На текущий момент в реестре Минпромторга есть только один сервер компании «Гравитон», предназначенный для задач ИИ.
Конечно, производительность NM Quad не имеет смысла сравнивать с флагманскими решениями NVIDIA, но потенциал здесь есть, особенно для тех сценариев, где не требуется большая вычислительная мощность за космические ценники. Решение от НТЦ «Модуль» как минимум в разы доступнее и при этом весьма энергоэффективное — потребление одного такого NPU не превышает 80 Ватт в пике, а стандартное составляет около 50 Ватт. Что касается памяти: на борту каждой карты по 20 Гб DDR3L с пропускной способностью до 32 Гб/с. Суммарная пропускная способность интерфейсов межпроцессорного обмена одного процессор составляет 160 Гбит/с.
4. Выводы
Поскольку спрос на ИИ продолжает расти, роль графических процессоров будет становиться все более важной. А появление все новых центров обработки данных, обусловленное потребностью в вычислительной мощности ИИ, указывает на надежное будущее графических процессоров.
Выбор между серверными и настольными графическими процессорами зависит от конкретных требований поставленной задачи. Для рабочих нагрузок, требующих высокой производительности и надежности, серверные графические процессоры являются очевидным выбором. Помните, что профессиональные видеокарты того же поколения и с той же скоростью обработки, как правило, имеют примерно вдвое больший объем оперативной памяти графического процессора. Напротив, для игр и общего использования настольные графические процессоры предлагают более экономичное решение без ущерба для производительности.
В то же время сравнивать профессиональные и массовые решения по классическим параметрам производительность / энергопотребление / цена в текущей ситуации уже становится не всегда рационально, а тот же MLCommons не будет являться истиной в последней инстанции при конкуренции в мире ИИ между производителями. Рекомендуем смотреть на свой сценарий и получать стабильный и долгоиграющий результат с помощью GPU, где технологическая турбулентность не остановит вас от применения GPU из России и дружественных стран.
ссылка на оригинал статьи https://habr.com/ru/articles/865762/
Добавить комментарий