Почему Qwen3.6-27B лучше чем Claude? Железная коробка, которая научилась думать

На вопрос «Чем локальная модель лучше коммерческой top‑quality модели от Anthropic, OpenAI или Google?», — обычно отвечают: приватность. На самом деле это не совсем так. Приватность важна, но не только она. У локальных моделей есть более важные качества, которые я опишу в этой статье.

Первое преимущество локальных моделей

У больших моделей от Anthropic, OpenAI или Google есть одно качество, которое ужасно раздражает — это качество ответов. Например у меня есть задача, которую мне нужно срочно решить. Понятно, что я активно работаю с кодом и моделью. В начале дня — все летает, модель дает корректные ответы, я хорошо выспался и работа движется быстро. Ближе ко второй половине дня — становится сложнее, я уже не такой свежий да и модель оказывается тоже начинает подтупливать. Но работа срочная — нужно сделать, к вечеру — осталось уже совсем чуть‑чуть, час, может полтора. Но не тут‑то было — модель начинает конкретно тупить и время тратится уже больше на общение с моделью и на попытку объяснить ей какую‑нибудь элементарную задачу.

Когда я столкнулся с этим впервые, я уже порядком устал и не сумел вовремя понять, что это не я туплю, это просто просело качество ответов. В результате провозился далеко за полночь, хотя к пяти вечера был уверен, что еще часок и свободен. Сейчас понятно как с этим работать, но все равно приятного мало.

УGoogle, Anthropic и OpenAI подход немного отличается. Например, Google просто молча снижает качество. Ты оплатил подписку, заплатил $, выбрал модель, которая как кажется обеспечивает нужное качество, а качество ответов потихоньку сползло в ноль. У Anthropic — лимиты: это более прозрачно, кажется, что окей, я заплатил денежку, выбрал нужную модель, работаю внутри лимита, значит, получаю качественные ответы.

А Вы в этом уверены? Что, если в данный момент AI получил слишком большое количество запросов? Что должна сделать компания? Отключить сессии у бесплатных и низкомаржинальных пользователей, сказать, что сервер недоступен, заставить всех пользователей ждать по полчаса? Все это негативный пользовательский опыт, который аукнется потерей клиентов. А может, просто поставить балансировщик, который будет отправлять простые запросы более простым моделям? Да, качество немного просядет, но большинство пользователей этого скорее всего не заметит. Ну потупит ваша модель немного, ну потратите вы 3 часа вместо двадцати минут, ну так в некоторых случаях это даже хорошо! Токенов‑то вы используете больше! Значит и заплатите тому‑же Anthropic больше!

Вообще это действительно интересно. Модель подписки подразумевает, что клиент оплачивает услуги определенного качества, а поставщик эти услуги предоставляет, как например с электричеством, или с телефонной связью. Но что, если покупатель не имеет средств определить качество предоставляемой услуги? С телефоном все понятно: слышно или нет, быстро грузятся сайты или нет, а как вы оцениваете качество ответов нейросети?

Собственно отсюда следует простой вывод — если нет объективных критериев оценки качества работы модели, а требование бизнеса — продать максимально дорогую модель максимально большому количеству пользователей — то качество моделей скорее всего будет деградировать, а цена расти. Собственно это и можно видеть на рынке: модель которая вышла полгода назад и которая изначально поражала эффективностью, постепенно начинает все больше и больше тупить и через полгода выходит новая модель.

Сейчас очевидно идет бурный рост AI сектора, поэтому цены не сильно растут, а качество моделей улучшается — крупные игроки пытаются захватить место под солнцем, но развитие технологии делает модели не только умнее но и эффективнее (сравните модели сейчас и 3 года назад). Мы с вами не знаем, что в приоритете у крупных компаний — улучшение мыслительных способностей моделей или их экономическая эффективность.
Можно предположить, что если у компании есть выбор:

сильно улучшить когнитивные способности модели при увеличении стоимости;
сохранить/немного увеличить уровень при существенном снижении стоимости.

Коммерческая компания выберет второе. Точнее она выберет поддержание способностей модели на конкурентном уровне при максимально возможном снижении цены. Почему? Потому, что большинство пользователей не может заметить снижение качества.

«А что же тесты?» — скажет возмущенный читатель. Тесты это хорошо, но во многих моделях можно, например, ограничить количество токенов на рассуждение, можно поменять другие параметры, да в конце концов можно поменять саму модель, например выпустить суперумную Opus 4.6.0 а потом когда большинство тестов будет сделано заменить ее на Opus 4.6.1, а со‑временем и на Opus 4.6.8, а там и на Opus 4.7 перейти. Это все еще тот Opus 4.7, за который вы платите? Компания не дает гарантий, что не будет файнтюнить модель (по крайней мере на подписке 20$). Поэтому и параметры модели могут немного меняться, никто ничего не нарушает.

Конечно, все вышеперечисленное — это просто мое рассуждение, которое смело можно назвать спекуляцией, и если где‑то существуют ответы на поставленные вопросы, я буду рад, если мне подскажут, как их найти. Но пока их нет — я сделаю первый вывод:

Основным недостатком коммерческих моделей является отсутствие гарантий стабильного качества ответов. В каждый отдельный момент времени вы не можете проверить, что модель возвращает вам ответы надлежащего качества.

С другой стороны, если вы запускаете локальнуюмодель — вы имеете гарантию, что качество ответов постоянно и определяется настройками модели, которые вы установили. Мне это напоминает системы реального времени, система реального времени может не обеспечивать мгновенное выполнение задачи, она может быть даже довольно медленной, но она обеспечивает гарантированное выполнение задачи в заданный промежуток времени. Также и локальная модель — она может не обеспечивать такой же уровень интеллекта, как топовая модель, но она обеспечивает гарантированное качество ответа, которое не зависит от времени и не зависит от количества вопросов, которые вы уже задали. Это преимущество локальных моделей.

Второе преимущество

Вторым преимуществом вытекающим из первого является стоимость использования. Это довольно спорное преимущество, однако я приведу несколько аргументов в защиту этого тезиса.

Очевидно, что если коммерческие компании, которые предоставляют доступ к LLM: OpenAI, Google, Anthropic и прочие — заинтересованы в максимизации прибыли. Очевидно, что сейчас эти компании работают в убыток, сжигая капитал, и пытаясь опередить друг друга, и занять лучшие рыночные позиции, но это не может продолжаться долго. Это значит, что компании будут вынуждены начать повышать цены на доступ к моделям. Скорее всего, мы увидим серьезную сегментацию рынка:

топовые испециализированные модели с гарантированным качеством будут стоить десятки тысяч долларов в месяц — например специализированные модели, которые смогут обеспечивать круглосуточное управление производством, выполнять аналитические и финансовые задачи, обеспечивать инвестиционное управление и так далее;
супер дорогие модели для выполнения государственных и военных задач;
специализированные модели попроще — для бизнеса, скорее всего в диапазоне от нескольких сотен до нескольких тысяч долларов, в зависимости от квалификации и возможности подключения локальных источников данных;
модели общего назначения (чат-боты) с негарантированным качеством, достаточным для решения большинства задач обывателя, с недорогой подпиской в районе 20$.

Понятно, что прогнозирование будущего — дело неблагодарное, и невозможно сказать, что будет на самом деле, но конечность ресурсов, даже очень крупного бизнеса, и то, что любой бизнес направлен на получение прибыли заставляет думать, что движение будет в сторону роста цен.

Можно сказать, что хотя локальные решения и требуют инвестиций на начальном этапе, но цена их использования не будет увеличиваться с каждым годом, а с учетом амортизации оборудования, скорее всего, будет уменьшаться.

Тут можно возразить — апгрейдоборудования тоже стоит денег, и это правда. Но давайте честно, в данный момент прогресс AI решений в значительной степени зависит от прогресса LLM моделей. Например, я использую GPU RTX4090, и если сравнить производительность моделей которые я запускаю сейчас и которые я запускал 2–3 года назад — разница колоссальная, хотя железо осталось то же самое. Если разработан пайплайн, который соответствует задачам и эффективно использует имеющиеся данные, этот пайплайн может быть легко переключён на более новую и качественную модель. Более того, если этот пайплайн обеспечивает необходимое качество, так ли нужно его менять? Это чем‑то похоже на сотрудника компании: если у вас есть сотрудник, который хорошо выполняет свою работу, и вы им довольны, будете ли вы его менять на студента, просто потому, что студент на 20 лет моложе? Тут можно предположить, что построив эффективное локальное решение, люди и бизнес будут потихоньку менять модели, иногда менять оборудование, но затраты не будут сильно превышать обычные затраты на имеющуюся IT‑инфраструктуру.

Понятно, что локальная модель с настроенными пайплайнами — это еще не все. Что бизнес, скорее всего, захочет доработку пайплайнов и техническую поддержку, но собственно, чем это отличается от обычного IT?

Таким образом, с одной стороны мы имеем практически гарантированный рост цен на услуги LLM провайдеров, а с другой стабильность и прогнозируемую стоимость владения локальных моделей. С моей точки зрения — здесь преимущество локальных моделей.

Третье преимущество

Третьим преимуществом локальных моделей является приватность. Да, это уже всем надоело, но приватность при общении с LLM намного важнее, чем приватность вашего поиска в Google! Не согласны? Давайте рассмотрим несколько примеров:

Допустим, у вас нет никаких особых пайплайнов, и вы просто используете чат. Как вы его используете? Вы задаете вопросы и получаете ответы, и очевидно, что вы спрашиваете то, чего вы не знаете. Вы узнаете что-то новое и модель тоже узнает вместе с вами, вы валидируете данные модели (да и вы платите за это деньги). Допустим, вы придумали классную штуку (новый бизнес, новый товар, новую услугу, новое лекарство, супер‑пупер варп двигатель) — никто на всем белом свете об этом не знает, а модель уже знает. И если работа модели построена правильно — она уже знает о вашем изобретении намного больше чем вы. Просто потому, что она быстрее, она уже проанализировала последствия внедрения, возможные трудности, стратегии и множество других вопросов, о которых вы даже не подумали. Скажите, а то, что вы только‑что придумали и обсуждали с моделью — это еще ваше изобретение? Что насчет приватности? Кому модель сообщит о новом открытии, новой бизнес идее, новом товаре или услуге? Кто готов заплатить за такую информацию?
Следующий пример — реклама. Все знают об этом примере. Но по большому счету, модель может нас убедить использовать практически все, за что заплатит рекламодатель. Если, например, вы не уверены, куда поехать в отпуск: модель легко приведет вам кучу аргументов почему одно место лучше, чем другое, а так как вы не уверены и не знаете — то и проверить не можете. А LLM модели весьма убедительны. К тому же, модель будет гарантированно знать, что вы думаете по обсуждаемому вопросу, вы сами ей об этом расскажете. Это эффективнее, чем отправить к вам индивидуального продавца, потому что продавец — это человек, вы ему всего не расскажите, а модель создает ощущение приватности: вы один в комнате за компьютером, — и механизмы защиты не работают.
А ещё, используя коммерческие модели Anthropic, OpenAI или Google — мы создаем «новый Facebook»! Почему? Все просто: ценность Facebook, как и многих других ресурсов, создают пользователи. Они создают контент, за которым приходят другие пользователи. Именно контент пользователей продвигает такие ресурсы в поиске Google. Благодаря контенту миллионов пользователей в Facebook никому не интересен маленький частный сайт. И это происходит сейчас в мире моделей — пользователи создают контент. На первом этапе для обучения моделей использовались знания интернета (по сути, знания, доступные всем), но сейчас миллионы пользователей ежедневно взаимодействуют с моделями, создают новые знания, учат модели, как думать, как писать код, строить архитектуру, проводить анализ, решать инженерные задачи. Именно сейчас модели высасывают человеческие знания, опыт, логику. Мы спрашиваем, они отвечают, мы поправляем, говорим, что правильно, а что нет, мы рассуждаем, проверяем гипотезы, и они учатся на наших рассуждениях. На самом деле люди учат модели думать. Сотни, тысячи лет тренировки — каждый день. Как вы думаете, они научатся?
Ну и еще один пример — предметные знания. Бизнес‑процессы и знания, накопленные в крупных компаниях и корпорациях, то, что они пытаются защитить. Можно разделить их на несколько категорий:
- экспертные знания (например знания и опыт инженера‑электрика, врача, эксперта в какой‑либо области);
- информация о бизнес‑процессах и структуре;
- финансовая и коммерческая информация.

Очевидно, что для бизнеса это не просто приватность, а жизненноважная информация, которая должна быть защищена.

Таким образом, мы видим, что на самом деле приватность — действительно важна, но это не единственное и возможно даже не основное преимущество локальных моделей.

Четвертое преимущество

Четвертым преимуществом локальных моделей является доступность. Вы не зависите от того, что кто‑то отключил интернет, что кто‑то обесточил дата центр, или OpneAI обанкротился (пока еще нет). Если вы используете локальную модель вы имеете значительно большую устойчивость процессов. Если локальная модель использует локальные источники данных — вы можете продолжать работу, даже если произошли большие неприятности (конечно, если у вас есть генератор).

Но нельзя же сравнивать!…

Хорошо, это всё понятно, но давайте честно — это все бла‑бла‑бла! Ведь очевидно, что Cloude более сильная модель чем Qwen3.6–27B ну невозможно даже сравнивать! Конечно да! Но!

Cloude или любая другая ведущая коммерческая модель умеет значительно больше, чем локальная Qwen, но даже она не всё делает сама. Обычно модели используют различные инструменты и пайплайны. Например, вам нужно найти и сравнить документы из локальной базы данных, найти ответ на вопрос на основе документов в электронной библиотеке, провести исследование в интернете. Можно просто спросить Qwen — она загрузит информацию с каких‑то сайтов и предоставит результат. Хороший это будет результат? Сложно сказать, зависит от вопроса и от информации, которую нашла модель. Будет ли поиск через Cloude лучше? Наверно да. Но как вы думаете, как Cloude выполняет поиск в интернете? Я, например, не знаю. Я знаю, что Qwen (если я использую веб-поиск через Open WebUI) генерирует запросы → отправляет их в интернет → получает ответ → ищет в ответе нужную информацию → на основе этой информации генерит ответ. В этом сценарии — если Qwen не нашла необходимой информации, она не будет отправлять повторный запрос, а просто сгенерит какой‑то ответ. Что сделает Cloude? Скорее всего, проанализирует полученную информацию, если ее недостаточно — сформулирует новые запросы и так далее. Конечно я не могу знать наверняка, но скорее всего, будет работать какой‑либо пайплайн, который и обеспечит необходимое качество поиска. Может ли Qwen работать по такой схеме? Конечно, только ей необходим пайплайн.

Но будет ли такой пайплайн обеспечивать необходимый результат? Скорее всего да. На самом деле, подумайте, как вы ищете какую‑либо информацию. Действия, которые мы для этого делаем, довольно просты: сформулировать запросы, просмотреть ресурсы, проверить, есть ли на нужных ресурсах (в нужных книгах, статьях, записях, приказах, и тому подобное) необходимая информация, если нужно проверить ссылки, возможно уточнить что‑то, далее сделать саммари. При этом мы тратим большую часть времени на поиск (чтение и выбор нужного параграфа). Если локальная LLM сможет выполнить нашу задачу в 100 раз быстрее — собрать выписки со ссылками на источники и подготовить саммари то это как‑раз то, что нам нужно. Да, придется написать пайплайн, но сейчас это несложно, зато вы буде получать то, что вы хотите, и качество будет то, которое вы захотите. Потребуется — и LLM будет выполнять сложный многоступенчатый research с проверкой противоречий, поиском дополнительной информации. Захотите — будет выполнять поиск сначала в локальной базе знаний, а затем в сети. Потребуется — заставите искать только на определенных сайтах.

Контекстное окно локальной модели несравнимо меньше, чем топовой модели! Ну да, но это вам, скорее всего, не помешает. Если у вас контекстное окно 32 тысячи токенов, что по современным меркам очень немного — это примерно 50 страниц текста. Маловато, если вы хотите вместить туда весь чат с рассуждениями или большой поиск. Но если вы используете пайплайн, то на каждом шаге он может делать независимый вызов к модели. Это значит, что на каждом шаге вашего пайплайна у вас будет 32 тысячи токенов.

Например, на первом шаге вы хотите проанализировать вопрос и создать план исследования. Ваш пайплайн вызывает думающую модель и у нее есть 32 тысячи токенов для того, чтобы обдумать задачу и сформулировать план исследования (дополнительные вопросы, возможные источники, базы данных и все, что вы захотите, включить в план исследования). Далее вы идете по плану, вызываете модель, чтобы сгенерить поисковые запросы, автоматически скачиваете источники, используете RAG, или загружаете полученные данные для анализа и поиска нужной информации, и т.д. Нет никакой необходимости пытаться загрузить в модель всю скачанную информацию за один раз: делаете последовательные вызовы, и в каждом вызове вы имеете 32000 токенов. Таким образом, если у вас большой пайплайн и модель проводит глубокое исследование, суммарный объем используемого окна может превысить 1 миллион токенов. Так у модели будет достаточно пространства для качественного рассуждения и анализа большого объема собранной информации.

Скорость локальной модели существенно меньше! Да, меньше, но тут важны три фактора:

какое железо вы используете;
какую модель вы запускаете;
как вы используете вашу модель.

Не всегда нужно заставлять модель думать. Многие задачи недумающая модель решает почти также хорошо, как модель в думающем режиме, но значительно быстрее. Преимущество пайплайна в том, что вы можете выбирать, в каком режиме вызывать модель, в думающем или нет.

Более того, использование локальной модели в пайплайне позволяет выставлять дополнительные параметры, например температуру. На одних шагах модель может генерировать воспроизводимые результаты (например, список вопросов для исследования), а на других шагах можно обеспечить более «творческий» подход. Например, если необходимо, чтобы модель проявляла большее разнообразие в поиске возможных вариантов.

Таким образом гибкость и возможность адаптивной настройки локальной модели в пайплайнах существенно нивелирует преимущества коммерческих онлайн-моделей. Сравнивать качество не только можно но и нужно!

Тут можно возразить, что можно построить пайплайн использующую API коммерческой модели и этот пайплайн будет работать лучше, потому, что модель лучше. — Это довольно спорное утверждение, т.к. если разбить сложную задачу на простые подзадачи — то основное преимущество коммерческих моделей нивелируется. Например представьте себе, что у вас есть два студента, один умница и чемпион мира по шахматам, а другой — обычный студент. Вы им даете одинаковую задачу: нужно прочитать 40 статей в журналах, выписать из них все параграфы, касающиеся жизни колибри в районах крайнего севера. А далее написать саммари на 100 слов. Допустим у студентов одинаковая мотивация сделать работу хорошо и допустим они не устают. Кто сделает лучше? Очевидно, что если меньшая модель вообще может анализировать текст и выбирать релевантные тезисы (а Qwen3.6-27B может) — то результат будет сопоставимый.

Таким образом можно говорить о том, что, разбивая сложную специфическую задачу на элементарные шаги ограниченной сложности, можно нивелировать преимущества коммерческих моделей, и обеспечить сопоставимое качество принятия решений.

К чему это я

По большому счету, у каждого бизнеса и у каждого человека есть довольно ограниченное число задач, в которых можно использовать LLM.

Использование локальной модели позволяет:

Работать с моделью обеспечивающей стабильное качество ответов.
Прогнозировать стоимость использования локальных моделей.
Обеспечивать приватность информации.
Обеспечивать независимость от инфраструктуры провайдера и связанности сети.
Использовать пайплайны, которые позволяют за счет ограничения сложности принимаемых решений нивелировать преимущества крупных коммерческих моделей и обеспечить требуемые качество и скорость принятия решений.

Собственно, мы подошли к концу нашего довольно длинного рассуждения. Конечно, каждый решает сам и нельзя говорить, что что-то однозначно лучше по всем параметрам. Безусловно, есть ситуации, когда коммерческая модель перевешивает. Я хотел обратить внимание на то, что у локальных моделей есть определенные и довольно значительные преимущества.

Хотя, если честно… Меня просто поражает, что эта большая железная коробка у меня под столом научилась думать! 🙂 Ну, почти научилась.

ссылка на оригинал статьи https://habr.com/ru/articles/1037378/