Китайские разработчики ИИ стремительно догоняют Западные решения. Колонка The Wall Street Journal

от автора

Основатель Moonshot AI Ян Чжилинь заявил, что компания фокусируется на обучении с подкреплением, которое имитирует рассуждения человека

Основатель Moonshot AI Ян Чжилинь заявил, что компания фокусируется на обучении с подкреплением, которое имитирует рассуждения человека

Стартапы используют обходные пути, чтобы бросить вызов OpenAI в ряде областей, несмотря на нехватку передовых микросхем

Китайские стартапы демонстрируют более быстрый прогресс в сравнении с лидирующими американскими моделями искусственного интеллекта, чем многие в отрасли предполагали, несмотря на ограничения, с которыми Китай сталкивается при покупке современных чипов.

Дисклеймер: это вольный перевод колонки издания The Wall Street Journal. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Обсудить пилот или задать вопрос об LLM можно здесь.

DeepSeek, стартап, финансируемый одним из самых успешных хедж-фонд-менеджеров в Китае, в ноябре представил раннюю версию своей новой большой языковой модели. По словам разработчиков, её возможности сопоставимы с моделью рассуждений OpenAI под названием o1, выпущенной в сентябре.

Другие китайские компании заявили о схожих достижениях в последние недели. Moonshot AI, стартап при поддержке Alibaba и Tencent, сообщил о создании модели, специализирующейся на математике и близкой по возможностям к o1, а Alibaba заявила, что одна из её экспериментальных исследовательских моделей превзошла раннюю версию американской модели в решении математических задач.

Компании пока не опубликовали научные статьи о своих разработках, а оценить их заявления непросто, поскольку единый бенчмарк для ИИ-моделей отсутствует. Тем не менее некоторые специалисты из США признались, что впечатлены.

«Китай развивается быстрее, чем ожидалось», — отметил Эндрю Карр, бывший научный сотрудник OpenAI и ныне предприниматель в сфере ИИ. По его словам, исследователям DeepSeek, пытавшимся воссоздать модель рассуждений OpenAI, «удалось это за считаные месяцы, и многие мои коллеги этим откровенно удивлены».

Одним из тестов для сравнения служит American Invitational Mathematics Examination (AIME), предназначенный для самых способных старшеклассников.

DeepSeek заявила, что её модель обошла OpenAI в  бенчмарке AIME. В эксперименте, проведённом The Wall Street Journal с использованием 15 задач из AIME, модель o1 от OpenAI быстрее выдала ответы, чем DeepSeek, Moonshot и экспериментальная модель Alibaba. Так, в задаче-головоломке на стратегию в гипотетической игре на двоих модель OpenAI нашла ответ за 10 секунд, тогда как DeepSeek потребовалось более двух минут.

Получение правильного ответа с первого раза уже можно считать успехом, так как текстовые задачи нередко ставят ИИ в тупик.

Китайские разработчики ИИ сталкиваются с американскими ограничениями на доступ к самым передовым чипам, включая продукцию лидера рынка Nvidia, с 2022 года. В декабре администрация Байдена вновь ужесточила правила экспортного контроля.

Однако разработчики нашли обходные пути.

В Moonshot, стартапе при поддержке Alibaba и Tencent, основатель Ян Чжилин заявил, что компания концентрируется на методе обучения с подкреплением, который подражает человеческому методу «проб и ошибок». Подход потенциально снижает нагрузку на вычислительные мощности при совершенствовании производительности.

С конца прошлого года всё шире используется технология «mixture of experts» (MoE), где изначальный механизм маршрутизации направляет задачу к специализированной модели-«эксперту», подобно шеф-повару, поручающему заказ на спагетти повару итальянской кухни. Этот процесс также уменьшает потребности в вычислительных ресурсах.

Tencent объявила, что её модель на базе MoE, представленная в ноябре, по показателям сопоставима с моделью Llama 3.1, которую летом представила компания Meta, владеющая Facebook. По мнению учёных, изучивших опубликованные материалы, для обучения модели Tencent потребовалась примерно десятая часть тех вычислительных ресурсов, что использовала Meta.

DeepSeek возникла как исследовательское подразделение High-Flyer, количественного хедж-фонда с активами на 8 миллиардов долларов, который известен использованием ИИ в торговле. В 2021 году DeepSeek объединила около 10 000 чипов Nvidia A100 в кластер для обучения ИИ, названный Fire-Flyer 2.

В статье, опубликованной в августе, DeepSeek сообщила, что Fire-Flyer 2 показал результат, близкий к аналогичной системе Nvidia, однако китайский вариант обошёлся дешевле и потреблял меньше энергии. Выпущенная в мае работа компании о её модели на базе MoE, использующей более эффективную обработку данных, привлекла широкое внимание в отрасли.

«Один из способов, которым Китай может обойти экспортные ограничения, — это создание действительно качественного программного и аппаратного стека для обучения на доступном оборудовании, — написал в своём блоге Джек Кларк, сооснователь стартапа Anthropic. — „Сделано в Китае“ станет реальностью и для ИИ-моделей, как это уже случилось с электромобилями, дронами и другими технологиями».

Tencent заявила, что ее модель MoE обеспечивает производительность, сопоставимую с моделью LLaMa.

Tencent заявила, что ее модель MoE обеспечивает производительность, сопоставимую с моделью LLaMa.

Многие китайские разработчики ИИ нашли способы получать недоступные официально чипы Nvidia через сделки с посредниками и зарубежные центры обработки данных.

Всё же нехватка самых передовых чипов сильно бьёт по китайским стартапам, как признают китайские руководители, и разрыв может увеличиться. Клиенты Nvidia готовятся к масштабному развертыванию новейшего чипа для центров обработки данных Blackwell. xAI Илона Маска уже собрала центр обработки данных на базе 100 000 чипов Nvidia и недавно получила 5 миллиардов долларов для дальнейшего развития. Amazon Web Services намерена построить гигантский суперкомпьютер для ИИ, оснащённый сотнями тысяч собственных чипов.

DeepSeek, работающая в основном с моделями с открытым исходным кодом, уделяет особое внимание математическим задачам и программированию. Moonshot завоевала популярность у китайских пользователей за счёт чат-бота Kimi, схожего с ChatGPT, и известна способностью к обработке длинных текстов.

На данный момент китайские стартапы в сфере ИИ оцениваются заметно ниже американских — вроде OpenAI, которую недавно оценили в 157 миллиардов долларов, — поскольку инвесторы сомневаются в возможностях китайских компаний эффективно коммерциализировать свои наработки. Жёсткая конкуренция в Китае привела к ценовой войне среди разработчиков ИИ-моделей.

Пекинский стартап Zhipu AI, стоимость которого на последнем этапе финансирования достигла около 3 миллиардов долларов, отложил план выхода на биржу, который мог состояться уже во второй половине 2025 года: по словам знакомых с ситуацией источников, банкиры заявили, что желаемую оценку компания вряд ли получит. Zhipu в конце ноября представила собственного ИИ-агента и в июле выпустила модель для генерации видео, схожую с Sora от OpenAI.

Ховард Хуанг, ранее работавший над ИИ-инфраструктурой в одной из пекинских компаний, специализирующихся на моделях ИИ, сравнил положение дел с попытками танцевать в кандалах. «Единственный способ выжить и, возможно, выиграть — сосредоточиться на том, что у нас получается лучше всего», — отметил он.


ссылка на оригинал статьи https://habr.com/ru/articles/869748/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *