DeepSeek-V3: Китайская языковая модель превзошла Claude 3.5 Sonnet в работе с кодом

от автора

Компания DeepSeek, поддерживаемая китайским хедж-фондом High-Flyer, представила новую языковую модель DeepSeek-V3, которая продемонстрировала впечатляющие результаты в работе с кодом.

Архитектурные особенности

DeepSeek-V3 представляет собой значительный шаг вперед по сравнению со своим предшественником. Модель имеет 685 миллиардов параметров. В основе архитектуры лежит подход Mixture of Experts (MoE) с 256 экспертами, из которых 8 активируются для каждого токена.

По сравнению с предыдущей версией, DeepSeek-V3 получила существенные улучшения во всех ключевых параметрах. Новая версия может обрабатывать больше информации за один раз, имеет заметно расширенный словарный запас и значительно более мощную внутреннюю архитектуру. Все эти улучшения направлены на то, чтобы модель лучше понимала контекст и генерировала более качественные ответы.

Впечатляющие результаты в Aider Polyglot Benchmark

Особого внимания заслуживают результаты DeepSeek-V3 в тесте Aider Polyglot — специализированном бенчмарке для оценки способностей языковых моделей в работе с кодом на различных языках программирования. Тест включает 225 сложнейших задач с платформы Exercism по программированию на C++, Go, Java, JavaScript, Python и Rust.

В данном тестировании DeepSeek-V3 показала результат в 48.4% успешно решенных задач, заняв второе место в общем рейтинге. Модель уступила только o1-2024-12-17 (61.7%), но превзошла такие известные модели как Claude-3-5-sonnet-20241022 (45.3%) и Gemini-exp-1206 (38.2%).

Результаты DeepSeek-V3 в тесте Aider Polyglot

Результаты DeepSeek-V3 в тесте Aider Polyglot

Важной особенностью теста является не только процент решенных задач, но и способность модели корректно форматировать изменения в коде. DeepSeek-V3 показала впечатляющий результат в 98.7% правильного форматирования изменений.

Мультимодальные возможности

Помимо впечатляющих результатов в работе с кодом, DeepSeek-V3 хорошо справляется с другими задачами: читает диаграммы, работает с научными текстами и сайтами, понимает картинки и помогает создавать разные тексты. Модель можно попробовать на сайте chat.deepseek.com.

Интересная особенность

Ответы модели

Ответы модели

Любопытной деталью является то, как модель представляет себя на разных языках. В англоязычной версии чата она называет себя «DeepSeek-V3, AI assistant created exclusively by the Chinese Company DeepSeek», в то время как в русскоязычной версии она представляется как «языковая модель OpenAI, основанная на архитектуре GPT-4». Такое различие в самоидентификации на разных языках является необычным и заслуживает внимания при оценке возможностей модели.


ссылка на оригинал статьи https://habr.com/ru/articles/869840/