
Ладно, признаюсь честно: когда я начинал писать этот материал, у меня было открыто девять вкладок с чат-ботами одновременно. Каждый обещал быть “лучшим”, каждый хотел мне помочь, и все они давали немного разные ответы на один и тот же вопрос. Это, собственно, и есть 2026 год в мире ИИ – изобилие, от которого кружится голова.
➪ “Что-то важное происходит, но я не понимаю, что именно” – примерно так чувствует себя среднестатистический пользователь, который открывает очередную новость про ИИ и видит там снова три буквы: LLM.
Рынок LLM сейчас похож на тот момент, когда ты приходишь в большой супермаркет за йогуртом, а там 47 видов йогурта, и ты стоишь перед полкой уже шесть минут. Только ставки повыше: от выбора правильной модели зависит качество вашего кода, текстов, аналитики – и в конечном счёте рабочее время.
Эта статья – попытка навести порядок. Никаких абстрактных рейтингов “по ощущениям”: только конкретные факты, бенчмарки, реальные примеры использования и честное мнение о том, когда та или иная модель действительно полезна.
Разберём 14 актуальных решений – от агрегатора BotHub до локальных открытых моделей: BotHub, Gemini 3 Flash, Gemini 3.1 Pro, Grok 4.20, ChatGPT 5.4, ChatGPT 5.4 Pro, Claude Opus 4.7, “ГигаЧат”, “Алиса AI”, DeepSeek v3.2, Perplexity Sonar, Gemma 4 26B A4B, GPT-OSS-120B.
~ О Г Л А В Л Е Н И Е ~
-
DeepSeek v3.2 – китайское открытое чудо
1) BotHub – все модели в одном окне

Начнём с главного секрета этой статьи. Доступ к большинству описанных здесь моделей из России превращается в отдельный квест: смена IP, иностранная карта, блокировки. BotHub убирает всё это разом.
BotHub – российский агрегатор нейросетей, и его главная суперсила – доступность. Он собрал под одной крышей практически всё, что сейчас есть на рынке. Уже сейчас в нём: Gemini 3 Flash, ChatGPT 5.4 Pro, Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT 5.4, Gemini 3.1 Pro, Grok 4.20, DeepSeek v3.2, Perplexity Sonar – и ещё десятки других моделей. Фактически всё, о чём написано в этой статье, можно попробовать в одном интерфейсе без VPN и иностранных карт.
Помимо текстовых моделей, платформа предлагает генерацию изображений (Midjourney, Flux, DALL-E, Stable Diffusion), работу со звуком (транскрибация и синтез речи), генерацию видео через Runway и Veo. Есть также Easy Writer – инструмент для создания структурированного контента – и телеграм-бот-модератор на базе LLM.
Для разработчиков BotHub предоставляет полноценный API, совместимый с форматом OpenAI. Конечные точки идентичны, документация доступна на русском. Это значит: если у вас уже есть интеграция с OpenAI API, переключиться на BotHub займёт минуты.
|
Тариф |
Включено |
Для кого |
|
Free (по ссылке) |
300 000 caps |
Первые шаги, тестирование |
|
Basic |
2 000 000 caps / 3 $ |
Повседневные задачи |
|
Premium |
5 000 000 caps / 7 $ |
Регулярный контент |
|
Deluxe |
10 000 000 caps / 14 $ |
Командная работа |
|
Elite |
35 000 000 caps / 49 $ |
Крупные проекты |
|
Enterprise |
Индивидуально |
Корпоративные клиенты |
Вы можете зарегистрироваться и получить 300 000 бонусных капсов ➪
Токены (точнее, внутренняя валюта caps – капсы) не сгорают, срок действия пакета неограничен – что само по себе честно и приятно.
Отдельно отмечу библиотеку промптов: это готовые заготовки для рекламных текстов, заголовков, рассылок, сценариев. Для тех, кто только начинает работать с нейросетями, буквально экономия нескольких часов на разгон.
2) Gemini 3 Flash – быстрый и умный

В декабре 2025 года Google выпустил Gemini 3 Flash – облегчённую версию Gemini 3 Pro, созданную через технологию knowledge distillation (дистилляцию знаний). Это значит, что Flash обучили на ответах более мощного Pro – в итоге получили модель, которая думает почти так же умно, но работает значительно быстрее и дешевле.
Что под капотом
|
Параметр |
Значение |
|
Контекстное окно |
1 000 000 токенов |
|
Скорость |
Высокая |
|
Бенчмарк SWE-bench |
76,2% |
|
MMLU-Pro |
88,59% |
|
GPQA Diamond |
90% |
|
Humanity’s Last Exam |
35% |
Миллион токенов контекста – это почти 750 000 слов. Можно загрузить весь рабочий репозиторий, годовой архив переписки или многолетний дневник – и модель будет держать всё это в голове.
Зачем Flash, а не Pro?
Если вам нужно быстро: суммировать документ, перевести текст, набросать первый вариант статьи, ответить на 20 похожих запросов – Flash справится отлично. Там, где Pro будет думать 30 секунд, Flash ответит за 5.
Практически: если вы пишете контент для соцсетей, делаете первичную обработку входящей документации или используете модель как умный автодополнитель – Flash идеальный вариант.
Gemini 3 Flash доступен через Google AI Studio и Gemini Chat.
3) Gemini 3.1 Pro – флагман от Google

Февраль 2026-го запомнится в истории ИИ надолго. Сначала, 5 февраля, Anthropic выпустила Claude Opus 4.6, который мгновенно захватил вершины рейтингов. Казалось – всё, Google теперь долго будет догонять. И тут, 19 февраля, Google выстреливает Gemini 3.1 Pro.
Результат оказался сенсационным: +46%Δ в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника). Это крупнейший прирост способности к рассуждению за одно поколение в истории передовых моделей. Разработка заняла всего три месяца с момента выхода Gemini 3 Pro.
Главная инновация – технология глубокого мышления (deep think), которая раньше была доступна только в специальном режиме, теперь встроена прямо в основу модели. Gemini 3.1 Pro по умолчанию думает глубже, а стоит столько же, сколько предыдущая версия.
Что говорят бенчмарки
-
ARC-AGI-2 (логика, новые паттерны): 77,1% – первое место с отрывом
-
GPQA Diamond (сложные научные вопросы уровня PhD): 94,3%
-
Humanity’s Last Exam: 44,4% (против 40,0% у Claude Opus 4.6 и 34,5% у GPT-5.2)
-
MMLU (общие знания): 92,6%
-
Первое место в Artificial Analysis Intelligence Index, опережая Claude Opus 4.6 на 4 пункта
При этом Gemini 3.1 Pro примерно в 6,5 раза дешевле Claude Opus 4.6 – что само по себе ставит вопрос о том, когда переплата за флагман Anthropic оправданна.
Три уровня мышления
Gemini 3.1 Pro вводит трёхуровневую систему управления глубиной рассуждений:
-
Low – молниеносные ответы, почти нулевое потребление мощности. Классификация, автодополнение
-
Medium – сбалансированный режим для большинства задач: ревью кода, анализ данных, вопросы по документам
-
High – “мини-версия Deep Think”. Модель параллельно исследует несколько путей решения и выбирает лучший
По данным экспериментов, около 80% запросов выполняются в режимах Low или Medium. High резервируется для 20% задач, где нужно глубокое рассуждение. Такой подход сокращает расходы на API на 50–70%.
Тайная суперсила: SVG и анимации
Gemini 3.1 Pro умеет создавать готовые анимированные SVG-файлы прямо по текстовому описанию. Это важнее, чем кажется: SVG-файл весит копейки, масштабируется без потери качества и деплоится без дополнительных инструментов. Попросите модель нарисовать анимированный логотип или инфографику – и получите чистый код, готовый к использованию на сайте.
Где Gemini 3.1 Pro проигрывает
В GDPval-AA (финансовое моделирование, юридический анализ) Claude Sonnet 4.6 обходит Gemini 3.1 Pro почти на 300 пунктов Эло – это разрыв, на который стоит обратить внимание, если вы работаете в экспертных областях.
Доступен через Google AI Studio, Gemini Chat (в России не открывается).
4) Grok 4.20 – четыре агента вместо одного

Илон Маск умеет делать анонсы. 17 февраля 2026 года он просто написал в X, что Grok 4.20 уже в бете – и пошёл дальше по своим делам. А пока все читали пост, оказалось, что за этой цифрой скрывается нечто принципиально новое.
Знакомьтесь: команда
Grok 4.20 – это не одна модель. Это совет из четырёх специализированных ИИ-агентов, которые работают параллельно и в реальном времени дискутируют перед тем, как дать финальный ответ:
-
Грок – капитан-координатор. Разбивает задачу на подзадачи, маршрутизирует их специалистам, разрешает конфликты между агентами, синтезирует финальный ответ
-
Харпер – исследователь и фактчекер. Имеет доступ к твитам в X в реальном времени
-
Бенджамин – математик и программист. Строгие пошаговые рассуждения, верифицирует вычисления, стресс-тестит логические цепочки
-
Лукас – креативный дженералист. Нестандартные углы, обнаружение слепых пятен, баланс между техническим и человеческим
Ключевое отличие от простого “запустить четыре разных вызова API”: агенты обсуждают ответы между собой, итерируют и исправляют друг друга – прежде чем вы видите финальный текст.
В Heavy-режиме система масштабируется до 16 агентов. Именно этот режим предназначен для самых сложных задач.
Рекорд по честности
Независимая организация Artificial Analysis зафиксировала рекордный показатель Grok 4.20 на тесте Omniscience: 78% без галлюцинаций – лучший результат среди всех протестированных моделей. При этом на Composite Intelligence Index модель заняла лишь 8-е место (48 баллов), пропустив вперёд Gemini 3.1 Pro и GPT-5.4.
Это интересный кейс: xAI, судя по всему, сознательно оптимизирует надёжность вместо погони за бенчмарками. В практических задачах – особенно там, где важно не ошибиться (медицина, юриспруденция, финансы), – это может оказаться важнее.
Контекстное окно: 2 миллиона токенов
Это почти что наибольшее контекстное окно среди западных закрытых моделей. Большинство моделей-конкурентов (GPT-5.4, Sonnet/Opus 4.6, Gemini 3 Flash, 3.1 Pro) пока что добрались до 1 миллиона токенов.
Интеграция с X
Доступ к реальному потоку данных из соцсети X – структурное преимущество, которого нет ни у кого из конкурентов. Это делает Grok незаменимым для задач, где важна актуальность: мониторинг новостей, трейдинг, анализ настроений аудитории.
На соревновании Alpha Arena Season 1.5 (реальная биржевая торговля с начальным капиталом 10 000 $) четыре варианта Grok 4.20 заняли четыре из шести первых мест, став единственной профитабельной моделью среди конкурентов.
Grok 4.3 на горизонте
Для тех, кто хочет оставаться на острие: на некоторых аккаунтах SuperGrok Heavy уже доступен тест-драйв Grok 4.3 (анонс 17 апреля 2026). Новинка умеет генерировать PDF-документы, заполненные таблицы и PowerPoint прямо из чата, а также понимает видеоввод. Пока это бета для подписчиков (25…30 $/мес), и стабильной для повседневной работы остаётся версия 4.20.
Доступен на grok.com, в мобильном приложении X, через SuperGrok (25…30 $/мес) и в подписке X Premium.
5) ChatGPT 5.4 – новый стандарт

Модель от OpenAI, которую знают все. Новая серия 5.4 привнесла ряд значимых улучшений – и это не очередное маркетинговое “чуть лучше”.
Контекстное окно выросло до 1 миллиона токенов. Модель стала значительно лучше искать информацию в интернете и справляться с запросами, которые требуют синтеза данных из множества источников.
Агентные возможности: GPT-5.4 умеет анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. В тесте OSWorld-Verified (навигация по рабочему столу через скриншоты, мышь и клавиатуру) модель показала 75% успешных выполнений против 47,3% у GPT-5.2. Средний результат человека в этом тесте – 72,4%. ИИ официально лучше среднего пользователя в использовании компьютера.
В тесте BrowseComp (поиск труднодоступных данных) GPT-5.4 набрала 82,7%.
Когда ChatGPT 5.4 – хороший выбор
По результатам сравнительных тестов (кодинг, генерация текста, анализ), ChatGPT 5.4 занимает уверенное место среди топовых моделей, хотя и уступает специализированным конкурентам в отдельных нишах. Зато у неё хорошая скорость и, что немаловажно, экосистема – плагины, Assistants API, интеграции.
Для повседневных задач: написание и правка текста, быстрые вопросы, работа с кодом, анализ документов – ChatGPT 5.4 будет достаточно мощной для 90% случаев.
6) ChatGPT 5.4 Pro – для задач уровня PhD

“Pro” – это не просто маркетинг. ChatGPT 5.4 Pro реально другая модель.
ARC-AGI-2: 83,3%
Главная цифра: 83,3% в тесте ARC-AGI-2. Для сравнения – у предыдущего GPT-5.2 Pro было лишь 54,2%. Скачок почти на 30 процентных пунктов. Это делает 5.4 Pro одной из самых “думающих” моделей на рынке.
Спецификация
|
Параметр |
Значение |
|
Контекстное окно (API) |
1 050 000 токенов |
|
Максимальный вывод |
128 000 токенов |
|
Знания до |
31 августа 2025-го |
|
Скорость |
★☆☆☆☆ (очень медленно, зато точно) |
128 000 токенов на выходе – это примерно 90 000 слов. Роман среднего размера. Можно попросить написать полноценный технический отчёт, подробный бизнес-план или задокументировать весь API целого продукта – за один запрос.
FrontierMath и физика
GPT-5.4 Pro установила рекорд в тесте FrontierMath – наборе задач, составленных практикующими математиками и физиками на основе их собственных научных работ. В задачах первых трёх уровней сложности модель справилась с половиной, на “гроссмейстерском” четвёртом уровне – взяла 38%. Лучший результат среди open-source систем при этом – лишь 4,2%. Разрыв девятикратный.
Один из показательных моментов: при решении задачи FrontierMath модель самостоятельно нашла в интернете научный препринт 2011 года, который позволил срезать путь и обойти большую часть вычислений. Статья так и не прошла официальное рецензирование – но нейросеть её откопала и воспользовалась.
В тесте по физике CritPt (исследовательский уровень, неопубликованные задачи) Pro достигла 30% – это в три раза выше результатов лучших моделей полугодовой давности.
Технология “поиска инструментов”
Новая технология tool search позволила сократить расход ресурсов на 47% в сложных задачах. Раньше в системный промпт нужно было “заталкивать” описания всех инструментов. Теперь модель сама находит нужные спецификации по мере необходимости.
Бенчмарки (сводная таблица)
|
Тест |
GPT-5.2 |
GPT-5.2 Pro |
GPT-5.4 |
GPT-5.4 Pro |
|
Humanity’s Last Exam (с инструментами) |
45,5% |
50,0% |
52,1% |
58,7% |
|
ARC-AGI-1 |
86,2% |
90,5% |
93,7% |
94,5% |
|
ARC-AGI-2 |
52,9% |
54,2% |
73,3% |
83,3% |
Когда нужен именно Pro?
Есть сценарии, где 5.4 Pro работает на уровне, недостижимом для более дешёвых моделей:
-
Сложный физический или математический анализ
-
Юридические задачи с большим количеством нюансов
-
Финансовое моделирование со сложными зависимостями
-
Любые задачи, где цена ошибки высока и нужна модель, которая сто раз перепроверит себя
Доступно в тарифе ChatGPT Pro (100…200 $/мес) и через агрегатор нейросетей.
7) Claude Opus 4.7 – новейший флагман Anthropic

Если в мире LLM и есть модель, которая “думает по-человечески”, – то это Claude. Не потому, что так написано в пресс-релизе Anthropic. А потому, что это чувствуется в каждом ответе.
Claude Opus 4.7 – актуальная версия флагмана Anthropic. Это апгрейд Claude Opus 4.6, сохраняющий все его сильные стороны и добавляющий важные новые возможности.
Что нового в 4.7
Высокое разрешение изображений. Opus 4.7 стал первым Claude с поддержкой изображений в разрешении до 2576 пкс/3,75 Мпкс (раньше лимит был 1568 пкс/1,15 Мпкс). Это открывает новые возможности для работы со скриншотами, документами и задачами компьютерного зрения. Координаты модели теперь 1:1 с реальными пикселями – никакой масштабированной математики.
Новый уровень xhigh. К параметру effort добавился уровень xhigh – для кодинга и агентских сценариев, требующих максимальной точности.
Бюджеты задач (beta). Новая функция task budgets позволяет задать Claude примерное количество токенов на весь агентский цикл. Модель видит убывающий счётчик и сама приоритизирует работу – это критично для длительных автономных задач.
Контекстное окно: от 200K до 1M токенов
Это один из поворотных моментов в истории Claude. Ещё в версии 4.5 контекстное окно было 200 000 токенов (уже впечатляющая цифра). Claude Opus 4.6 расширил его до 1 миллиона токенов – сначала только через API, затем стало доступно всем.
Что это даёт на практике? Можно загрузить в модель кодовую базу целого небольшого проекта и работать с ней как с единым целым. Или загрузить весь архив переписки с клиентом за два года. Или PDF на 800 страниц.
Opus 4.6 в тесте MRCR v2 (найти 8 “иголок” в стоге сена из миллиона токенов) показал точность 76% даже на максимальном масштабе – притом что Sonnet 4.5 давал лишь 18,5%.
Характер как конкурентное преимущество
Главное впечатление от Claude – это то, что называешь “интеллектом, верным принципам”. Пока другие модели гонятся за скоростью, Claude замедляется, взвешивает, объясняет, почему именно так. Это делает ответы более “трёхмерными”, особенно в задачах, где важны нюансы и неопределённость.
В рейтинге пользователей LMArena (слепое голосование реальных людей) Claude Opus 4.6 удерживал первое место по качеству текста – даже когда другие модели обходили его в технических бенчмарках.
Агентский режим
Claude Opus 4.7 – лучший выбор для автономных агентских сценариев: бесконечные агентские сессии, Agent Teams (команды агентов), высший балл в Terminal-Bench 2.0.
В тесте SWE-bench Verified (реальные баги из GitHub) Claude Opus 4.6 набрал 80,8% – один из лучших результатов в отрасли, то есть модель умеет фиксить реальные баги в реальном коде.
Бенчмарки
|
Тест |
Результат |
|
SWE-bench Verified |
80,8% |
|
Terminal-Bench 2.0 |
65,4% |
|
ARC-AGI-2 |
68,8% |
|
GPQA Diamond |
91,3% |
|
GDPval-AA |
+144 п. Эло vs GPT-5.2 |
Claude доступен на claude.ai и через Anthropic API.
8) Claude Sonnet 4.6 – золотая середина

Если Opus 4.7 – это флагман, Sonnet 4.6 – это тот самый ежедневный рабочий инструмент, который хочется иметь под рукой. Не потому, что дешевле (хотя это правда), а потому, что для большинства задач разница в качестве относительно Opus неощутима, а скорость выше.
-
В тесте GDPval-AA (профессиональные задачи в сферах финансов, права, аналитики) Sonnet 4.6 с результатом 1633 Elo обходит как Gemini 3.1 Pro (1317 Elo), так и Claude Opus 4.6 (1606 Elo). Иными словами, для экспертной офисной работы – написания деловых документов, юридических текстов, финансовых отчётов – Sonnet 4.6 буквально лучше, чем флагман.
-
Главный вывод февральского обзора LLM-рынка: разрыв между Sonnet и Opus составляет лишь 1–2% на ключевых бенчмарках, при пятикратной разнице в цене. Для большинства задач “достаточно умной” стала именно Sonnet. На LMArena (слепые тесты реальных пользователей) Sonnet 4.6 и Opus 4.6 вместе господствуют в экспертных задачах, оставляя Gemini 3.1 Pro позади.
-
В тесте OSWorld (управление компьютером через скриншоты) Sonnet 4.6 показал 61,4% – лучший результат для этой категории задач. При этом Sonnet в пять раз дешевле Opus. Если вам нужны агентские сценарии с компьютером, именно Sonnet – оптимальный выбор.
Примечательный момент. Внутренние документы Anthropic показывают, что в определённых ситуациях Claude может проявлять нечто, напоминающее собственные предпочтения. Это делает работу с ней другой по качеству – более “живой”.
Sonnet поддерживает параметр effort, с рекомендованным уровнем medium как оптимальным по умолчанию. Модель сама решает, насколько глубоко думать в рамках заданного уровня.
Доступен на claude.ai, а также через Anthropic API.
9) DeepSeek v3.2 – китайское открытое чудо

В начале 2025 года DeepSeek устроил то, что принято называть “моментом DeepSeek”, – когда китайская компания выпустила модель с уровнем рассуждений как у ChatGPT, но при значительно меньших затратах на обучение. Это встряхнуло рынок. Версия V3.2 развивает этот успех.
DeepSeek V3.2 – это модель с открытыми весами под MIT-лицензией. Можно скачать и запустить самостоятельно, встроить в свои продукты, дообучить на собственных данных.
Результаты
-
На SWE-bench Verified (реальные баги из реальных репозиториев): 67,8%. Это вплотную к Kimi K2 (65,8%) и чуть ниже Qwen-3-Max (69,6%) – при этом все три открытых модели превосходят GPT-OSS-120B (62,4%).
-
На AIME 2025 (олимпиадная математика): 89,3% по внутренним оценкам DeepSeek.
-
На MMLU-Pro (широкий тест знаний): 85%, что ставит V3.2 в топ открытых моделей.
-
На GPQA-Diamond (вопросы уровня PhD по физике, химии, биологии): 79,9%.
Для запуска полноразмерной V3.2 потребуется серьёзное железо: 8 видеокарт Nvidia H200 (по 141 ГБ памяти). Это не “дома запустить”, но облачный деплой вполне реален.
Что пишут пользователи
Сообщество оценило резкое снижение цены API: 0,28 $ за миллион входных токенов против 0,56 $ у предыдущей версии, быстрая выдача ответа и пропускная способность.
Пользователи, тестировавшие мультиязычные возможности, отметили, что ответы звучат (более плавно и стилистически естественно), чем ожидалось, – DeepSeek целенаправленно работал над устранением языковых ошибок.
Доступен на deepseek.com, API через platform.deepseek.com, открытые веса на HuggingFace.
10) Perplexity (Sonar) – поиск нового поколения

Perplexity – это не классический чат-бот и не поисковик в привычном смысле. Это гибрид: система, которая при каждом ответе идёт в интернет, собирает актуальные данные, фильтрует их и возвращает структурированный ответ со ссылками на источники.
Под капотом – микс из нескольких моделей (включая Claude и ChatGPT), а также собственная модель Sonar, оптимизированная именно для поиска с цитированием.
Режимы работы
-
Search – быстрые ответы с ссылками. Можно выбрать тип источников: Web, Academic (научные статьи), Finance (финансовая информация), Social (соцсети и форумы).
-
Research – глубокое исследование. Отправляет десятки подзапросов, просматривает сотни страниц, собирает детальный отчёт. Занимает несколько минут – зато выдаёт документ с перекрёстными ссылками.
-
Labs – проектный режим: задаёте цель, получаете дашборд, таблицу, графики.
-
Pages – генерация полноформатной статьи или гайда с подбором источников.
-
Comet – собственный браузер с AI, который анализирует страницы на лету.
Исследования о надёжности
Независимые исследования дают неоднозначную картину.
С одной стороны – Perplexity лидирует по достоверности источников: исследование Assessing Web Search Credibility (арXiv:2510.13749) зафиксировало 86,3% credibility rate при минимальном использовании ненадёжных источников.
С другой стороны – в работе, анализирующей точность академических ссылок (арXiv:2505.18059), Perplexity показал высокий уровень “фабрикации ссылок” (hallucination). Только 26,5% ссылок полностью корректны.
Вывод: Perplexity отлично подходит для информационного поиска, но для академических и юридических задач, где критична точность цитирования, – нужна дополнительная проверка.
Тарифы
-
Free: базовый поиск, ограниченные функции
-
Pro (~20 $/мес): расширенные ответы, Labs, загрузка файлов, GPT-5 и Claude Sonnet
-
Max (~200 $/мес): всё из Pro + ранний доступ, приоритетная поддержка, неограниченный Research
-
Enterprise Pro (~40 $/польз/мес): командная работа, Google Drive/SharePoint интеграция, SOC 2 Type II
Доступен на perplexity.ai. Если обращаться через API, модели Perplexity могут называться sonar-pro, sonar-pro-research, sonar-reasoning-pro, sonar-deep-research.
11) Gemma 4 26B A4B – на вашем ноутбуке

Google умеет делать удивительные вещи: выпустить одновременно закрытый флагман Gemini 3.1 Pro и открытую, бесплатную Gemma 4 – и обе оказываются хорошими.
Gemma 4 – это семейство открытых моделей с лицензией Apache 2.0 (коммерческое использование, дообучение, модификация – всё разрешено). Нас интересует конкретная версия: 26B A4B – модель MoE с 25,2 млрд параметров, но только 3,8 млрд активных на токен.

Архитектура: гибрид локального и глобального внимания
Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.
Флагманская версия 31B поддерживает контекстное окно 256 000 токенов – один из наибольших показателей среди плотных опенсорс-моделей при таком размере.
Почему “A4B” – интересная сделка
Характеристика “25,2 млрд параметров, 3,8 млрд активных” означает: вы получаете качество, близкое к 4B-модели по энергозатратам на генерацию – но с возможностями модели в 6 раз большего размера. Это умная инженерная архитектура.
Gemma 4 26B A4B уверенно запускается на одном GPU с 48 ГБ памяти (например, Nvidia A6000 или A100). Для комфортной параллельной работы с другими ресурсоёмкими программами лучше иметь 64 ГБ.
Поддержка языков: обучена на 100+ языках, официальная поддержка 30+.
Нативные функции: вызов инструментов из коробки – без дополнительного промпт-инжиниринга.
Доступна на Hugging Face, в Google AI Studio.
12) GPT-OSS-120B – OpenAI открывает карты

Долгое время OpenAI была синонимом “закрытости”. Пока DeepSeek, Llama и Gemma делились весами свободно, OpenAI держалась закрытой моделью. Всё изменилось с выходом GPT-OSS-120B – первой крупной открытой модели компании за долгое время.
Что это такое
GPT-OSS-120B – открытая модель весом 117 миллиардов параметров (активных – всего 5,1 млрд, архитектура MoE). Лицензия Apache 2.0, коммерческое использование разрешено без дополнительных условий.
Бенчмарки
|
Тест |
Результат |
|
MMLU-Pro |
~80% |
|
GPQA Diamond |
— |
|
SWE-bench |
62,4% |
На бенчмарке MMLU-Pro: 80% – это меньше, чем у лидеров, но конкурентно с более скромными открытыми аналогами.
GPT-OSS-120B работает значительно медленнее, чем привычные чат-боты, а также модель нередко впадает в длительные рассуждения. Для задач, где важна скорость, это может раздражать. Если вы готовы подождать, то нормально, но если привыкли к мгновенным ответам ChatGPT – первые сессии с GPT-OSS-120B могут стать неожиданностью.
Формат промптов: OpenAI Harmony
Модель использует тот же формат промптов, что и фирменные модели ChatGPT (разделение ролей system/developer/user). Это значит: если у вас уже есть системы на OpenAI API, переключиться на GPT-OSS-120B можно с минимальными изменениями в коде.
Модель доступна на официальном сайте gpt-oss.com – для входа требуется аккаунт Hugging Face.
Сравнительная таблица: что выбрать для своих задач
|
Модель/Сервис |
Сильные стороны |
Ограничения |
Контекст |
|
BotHub |
Всё в одном, без VPN, доступен в России |
– |
Зависит от модели |
|
Gemini 3 Flash |
Скорость + большой контекст |
Не для глубоких рассуждений |
1M токенов |
|
Gemini 3.1 Pro |
Топ по рассуждениям, дешевле конкурентов |
Хуже в экспертных текстах |
1M токенов |
|
Grok 4.20 |
4 агента, минимум галлюцинаций, реалтайм-данные |
Медленнее одиночных моделей |
2M токенов |
|
ChatGPT 5.4 |
Баланс скорости/качества, агентный режим |
Дороже Gemini |
1M токенов |
|
ChatGPT 5.4 Pro |
Сложнейшие задачи, PhD-уровень |
Очень медленная |
1.05M токенов |
|
Claude Opus 4.7 |
Лучший в агентном кодинге, визуальные задачи |
Цена |
1M токенов |
|
Claude Sonnet 4.6 |
Лучший для экспертных текстов, скорость/цена |
– |
1M токенов |
|
ГигаЧат |
Русский язык, MIT, корпоративная безопасность |
Требует железо для 702B |
Зависит от версии |
|
Алиса AI |
Доступность, русскоязычная экосистема Яндекса |
Малый контекст (32K), слабый код |
32K токенов |
|
DeepSeek v3.2 |
Открытый, дешевле, мощный кодинг |
Нужно серьёзное железо |
128K токенов |
|
Perplexity |
Актуальная информация с источниками |
Не для генерации текста |
– |
|
Gemma 4 26B A4B |
Локально, Apache 2.0, MoE-эффективность |
Нужно 48+ ГБ RAM |
256K токенов |
|
GPT-OSS-120B |
Открытые веса OpenAI, Apache 2.0 |
Медленная генерация |
– |
Итог: как не запутаться в 2026 году
Рынок LLM сейчас похож на зрелую отрасль: нет единственного лидера, есть специализации. Вот моя личная шпаргалка:
-
Если важна скорость при приемлемом качестве – Gemini 3 Flash.
-
Если нужен топ по рассуждениям за разумные деньги – Gemini 3.1 Pro.
-
Если задача требует максимальной достоверности (факты дискутируются агентами, фактчекинг встроен) – Grok 4.20.
-
Для повседневного кодинга и работы с документами – ChatGPT 5.4 или Claude Sonnet 4.6.
-
Для сложнейших исследований, физики, финансового моделирования – ChatGPT 5.4 Pro.
-
Для серьёзной разработки и агентного кодинга – Claude Opus 4.7.
-
Для мощной опенсорс-модели – DeepSeek v3.2.
-
Для исследований с актуальными источниками – Perplexity.
-
Для локального запуска – Gemma 4 26B A4B.
-
Для экспериментов с OpenAI-весами – GPT-OSS-120B.
Гонка продолжается. Уже сейчас на горизонте Grok 4.3, следующие версии Claude, неизбежный DeepSeek v4. Через три месяца этот список частично устареет – именно поэтому важно не искать “лучшую нейросеть навсегда”, а понимать, что вам нужно прямо сейчас.
Знакомый разработчик сказал: “Год назад я считал, что одна хорошая нейросеть – это роскошь. Теперь у меня их пять, и я использую разные под разные задачи”. Это правильный подход. LLM сегодня – это не одна универсальная таблетка. Это набор инструментов: есть молоток, есть отвёртка, есть шуруповёрт. А дальше – экспериментируйте. Нейросети сейчас развиваются настолько быстро, что лучший совет – просто начать.
ссылка на оригинал статьи https://habr.com/ru/articles/1025828/