Лучшие LLM в 2026 году: какую нейросеть выбрать сегодня

от автора

Ладно, признаюсь честно: когда я начинал писать этот материал, у меня было открыто девять вкладок с чат-ботами одновременно. Каждый обещал быть “лучшим”, каждый хотел мне помочь, и все они давали немного разные ответы на один и тот же вопрос. Это, собственно, и есть 2026 год в мире ИИ – изобилие, от которого кружится голова.

➪ “Что-то важное происходит, но я не понимаю, что именно” – примерно так чувствует себя среднестатистический пользователь, который открывает очередную новость про ИИ и видит там снова три буквы: LLM.

Рынок LLM сейчас похож на тот момент, когда ты приходишь в большой супермаркет за йогуртом, а там 47 видов йогурта, и ты стоишь перед полкой уже шесть минут. Только ставки повыше: от выбора правильной модели зависит качество вашего кода, текстов, аналитики – и в конечном счёте рабочее время.

Эта статья – попытка навести порядок. Никаких абстрактных рейтингов “по ощущениям”: только конкретные факты, бенчмарки, реальные примеры использования и честное мнение о том, когда та или иная модель действительно полезна.

Разберём 14 актуальных решений – от агрегатора BotHub до локальных открытых моделей: BotHub, Gemini 3 Flash, Gemini 3.1 Pro, Grok 4.20, ChatGPT 5.4, ChatGPT 5.4 Pro, Claude Opus 4.7, “ГигаЧат”, “Алиса AI”, DeepSeek v3.2, Perplexity Sonar, Gemma 4 26B A4B, GPT-OSS-120B.


~ О Г Л А В Л Е Н И Е ~


1) BotHub – все модели в одном окне

Начнём с главного секрета этой статьи. Доступ к большинству описанных здесь моделей из России превращается в отдельный квест: смена IP, иностранная карта, блокировки. BotHub убирает всё это разом.

BotHub – российский агрегатор нейросетей, и его главная суперсила – доступность. Он собрал под одной крышей практически всё, что сейчас есть на рынке. Уже сейчас в нём: Gemini 3 Flash, ChatGPT 5.4 Pro, Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT 5.4, Gemini 3.1 Pro, Grok 4.20, DeepSeek v3.2, Perplexity Sonar – и ещё десятки других моделей. Фактически всё, о чём написано в этой статье, можно попробовать в одном интерфейсе без VPN и иностранных карт.

Помимо текстовых моделей, платформа предлагает генерацию изображений (Midjourney, Flux, DALL-E, Stable Diffusion), работу со звуком (транскрибация и синтез речи), генерацию видео через Runway и Veo. Есть также Easy Writer – инструмент для создания структурированного контента – и телеграм-бот-модератор на базе LLM.

Для разработчиков BotHub предоставляет полноценный API, совместимый с форматом OpenAI. Конечные точки идентичны, документация доступна на русском. Это значит: если у вас уже есть интеграция с OpenAI API, переключиться на BotHub займёт минуты.

Тариф

Включено

Для кого

Free (по ссылке)

300 000 caps

Первые шаги, тестирование

Basic

2 000 000 caps / 3 $

Повседневные задачи

Premium

5 000 000 caps / 7 $

Регулярный контент

Deluxe

10 000 000 caps / 14 $

Командная работа

Elite

35 000 000 caps / 49 $

Крупные проекты

Enterprise

Индивидуально

Корпоративные клиенты

Вы можете зарегистрироваться и получить 300 000 бонусных капсов ➪

Токены (точнее, внутренняя валюта caps – капсы) не сгорают, срок действия пакета неограничен – что само по себе честно и приятно.

Отдельно отмечу библиотеку промптов: это готовые заготовки для рекламных текстов, заголовков, рассылок, сценариев. Для тех, кто только начинает работать с нейросетями, буквально экономия нескольких часов на разгон.


2) Gemini 3 Flash – быстрый и умный

В декабре 2025 года Google выпустил Gemini 3 Flash – облегчённую версию Gemini 3 Pro, созданную через технологию knowledge distillation (дистилляцию знаний). Это значит, что Flash обучили на ответах более мощного Pro – в итоге получили модель, которая думает почти так же умно, но работает значительно быстрее и дешевле.

Что под капотом

Параметр

Значение

Контекстное окно

1 000 000 токенов

Скорость

Высокая

Бенчмарк SWE-bench

76,2%

MMLU-Pro

88,59%

GPQA Diamond

90%

Humanity’s Last Exam

35%

Миллион токенов контекста – это почти 750 000 слов. Можно загрузить весь рабочий репозиторий, годовой архив переписки или многолетний дневник – и модель будет держать всё это в голове.

Зачем Flash, а не Pro?

Если вам нужно быстро: суммировать документ, перевести текст, набросать первый вариант статьи, ответить на 20 похожих запросов – Flash справится отлично. Там, где Pro будет думать 30 секунд, Flash ответит за 5.

Практически: если вы пишете контент для соцсетей, делаете первичную обработку входящей документации или используете модель как умный автодополнитель – Flash идеальный вариант.

Gemini 3 Flash доступен через Google AI Studio и Gemini Chat.


3) Gemini 3.1 Pro – флагман от Google

Февраль 2026-го запомнится в истории ИИ надолго. Сначала, 5 февраля, Anthropic выпустила Claude Opus 4.6, который мгновенно захватил вершины рейтингов. Казалось – всё, Google теперь долго будет догонять. И тут, 19 февраля, Google выстреливает Gemini 3.1 Pro.

Результат оказался сенсационным: +46%Δ в тесте ARC-AGI-2 (77,1% против 31,1% у предшественника). Это крупнейший прирост способности к рассуждению за одно поколение в истории передовых моделей. Разработка заняла всего три месяца с момента выхода Gemini 3 Pro.

Главная инновация – технология глубокого мышления (deep think), которая раньше была доступна только в специальном режиме, теперь встроена прямо в основу модели. Gemini 3.1 Pro по умолчанию думает глубже, а стоит столько же, сколько предыдущая версия.

Что говорят бенчмарки

Gemini 3.1 Pro Preview набирает 57 баллов в Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 (53) и GPT-5.2 (51)

Gemini 3.1 Pro Preview набирает 57 баллов в Artificial Analysis Intelligence Index, опередив Claude Opus 4.6 (53) и GPT-5.2 (51)
  • ARC-AGI-2 (логика, новые паттерны): 77,1% – первое место с отрывом

  • GPQA Diamond (сложные научные вопросы уровня PhD): 94,3%

  • Humanity’s Last Exam: 44,4% (против 40,0% у Claude Opus 4.6 и 34,5% у GPT-5.2)

  • MMLU (общие знания): 92,6%

  • Первое место в Artificial Analysis Intelligence Index, опережая Claude Opus 4.6 на 4 пункта

При этом Gemini 3.1 Pro примерно в 6,5 раза дешевле Claude Opus 4.6 – что само по себе ставит вопрос о том, когда переплата за флагман Anthropic оправданна.

Три уровня мышления

Gemini 3.1 Pro вводит трёхуровневую систему управления глубиной рассуждений:

  • Low – молниеносные ответы, почти нулевое потребление мощности. Классификация, автодополнение

  • Medium – сбалансированный режим для большинства задач: ревью кода, анализ данных, вопросы по документам

  • High – “мини-версия Deep Think”. Модель параллельно исследует несколько путей решения и выбирает лучший

По данным экспериментов, около 80% запросов выполняются в режимах Low или Medium. High резервируется для 20% задач, где нужно глубокое рассуждение. Такой подход сокращает расходы на API на 50–70%.

Тайная суперсила: SVG и анимации

Gemini 3.1 Pro умеет создавать готовые анимированные SVG-файлы прямо по текстовому описанию. Это важнее, чем кажется: SVG-файл весит копейки, масштабируется без потери качества и деплоится без дополнительных инструментов. Попросите модель нарисовать анимированный логотип или инфографику – и получите чистый код, готовый к использованию на сайте.

Где Gemini 3.1 Pro проигрывает

В GDPval-AA (финансовое моделирование, юридический анализ) Claude Sonnet 4.6 обходит Gemini 3.1 Pro почти на 300 пунктов Эло – это разрыв, на который стоит обратить внимание, если вы работаете в экспертных областях.

Доступен через Google AI Studio, Gemini Chat (в России не открывается).


4) Grok 4.20 – четыре агента вместо одного

Илон Маск умеет делать анонсы. 17 февраля 2026 года он просто написал в X, что Grok 4.20 уже в бете – и пошёл дальше по своим делам. А пока все читали пост, оказалось, что за этой цифрой скрывается нечто принципиально новое.

Знакомьтесь: команда

Grok 4.20 – это не одна модель. Это совет из четырёх специализированных ИИ-агентов, которые работают параллельно и в реальном времени дискутируют перед тем, как дать финальный ответ:

  • Грок – капитан-координатор. Разбивает задачу на подзадачи, маршрутизирует их специалистам, разрешает конфликты между агентами, синтезирует финальный ответ

  • Харпер – исследователь и фактчекер. Имеет доступ к твитам в X в реальном времени

  • Бенджамин – математик и программист. Строгие пошаговые рассуждения, верифицирует вычисления, стресс-тестит логические цепочки

  • Лукас – креативный дженералист. Нестандартные углы, обнаружение слепых пятен, баланс между техническим и человеческим

Ключевое отличие от простого “запустить четыре разных вызова API”: агенты обсуждают ответы между собой, итерируют и исправляют друг друга – прежде чем вы видите финальный текст.

В Heavy-режиме система масштабируется до 16 агентов. Именно этот режим предназначен для самых сложных задач.

Рекорд по честности

Независимая организация Artificial Analysis зафиксировала рекордный показатель Grok 4.20 на тесте Omniscience: 78% без галлюцинаций – лучший результат среди всех протестированных моделей. При этом на Composite Intelligence Index модель заняла лишь 8-е место (48 баллов), пропустив вперёд Gemini 3.1 Pro и GPT-5.4.

Это интересный кейс: xAI, судя по всему, сознательно оптимизирует надёжность вместо погони за бенчмарками. В практических задачах – особенно там, где важно не ошибиться (медицина, юриспруденция, финансы), – это может оказаться важнее.

Контекстное окно: 2 миллиона токенов

Это почти что наибольшее контекстное окно среди западных закрытых моделей. Большинство моделей-конкурентов (GPT-5.4, Sonnet/Opus 4.6, Gemini 3 Flash, 3.1 Pro) пока что добрались до 1 миллиона токенов.

Интеграция с X

Доступ к реальному потоку данных из соцсети X – структурное преимущество, которого нет ни у кого из конкурентов. Это делает Grok незаменимым для задач, где важна актуальность: мониторинг новостей, трейдинг, анализ настроений аудитории.

На соревновании Alpha Arena Season 1.5 (реальная биржевая торговля с начальным капиталом 10 000 $) четыре варианта Grok 4.20 заняли четыре из шести первых мест, став единственной профитабельной моделью среди конкурентов.

Grok 4.3 на горизонте

Для тех, кто хочет оставаться на острие: на некоторых аккаунтах SuperGrok Heavy уже доступен тест-драйв Grok 4.3 (анонс 17 апреля 2026). Новинка умеет генерировать PDF-документы, заполненные таблицы и PowerPoint прямо из чата, а также понимает видеоввод. Пока это бета для подписчиков (25…30 $/мес), и стабильной для повседневной работы остаётся версия 4.20.

Доступен на grok.com, в мобильном приложении X, через SuperGrok (25…30 $/мес) и в подписке X Premium.


5) ChatGPT 5.4 – новый стандарт

Модель от OpenAI, которую знают все. Новая серия 5.4 привнесла ряд значимых улучшений – и это не очередное маркетинговое “чуть лучше”.

Контекстное окно выросло до 1 миллиона токенов. Модель стала значительно лучше искать информацию в интернете и справляться с запросами, которые требуют синтеза данных из множества источников.

Агентные возможности: GPT-5.4 умеет анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. В тесте OSWorld-Verified (навигация по рабочему столу через скриншоты, мышь и клавиатуру) модель показала 75% успешных выполнений против 47,3% у GPT-5.2. Средний результат человека в этом тесте – 72,4%. ИИ официально лучше среднего пользователя в использовании компьютера.

В тесте BrowseComp (поиск труднодоступных данных) GPT-5.4 набрала 82,7%.

Когда ChatGPT 5.4 – хороший выбор

По результатам сравнительных тестов (кодинг, генерация текста, анализ), ChatGPT 5.4 занимает уверенное место среди топовых моделей, хотя и уступает специализированным конкурентам в отдельных нишах. Зато у неё хорошая скорость и, что немаловажно, экосистема – плагины, Assistants API, интеграции.

Для повседневных задач: написание и правка текста, быстрые вопросы, работа с кодом, анализ документов – ChatGPT 5.4 будет достаточно мощной для 90% случаев.


6) ChatGPT 5.4 Pro – для задач уровня PhD

“Pro” – это не просто маркетинг. ChatGPT 5.4 Pro реально другая модель.

ARC-AGI-2: 83,3%

Главная цифра: 83,3% в тесте ARC-AGI-2. Для сравнения – у предыдущего GPT-5.2 Pro было лишь 54,2%. Скачок почти на 30 процентных пунктов. Это делает 5.4 Pro одной из самых “думающих” моделей на рынке.

GPT-5.4 берет планку в 83% на тесте GDPval – огромный скачок по сравнению с 70,9% у GPT-5.2

GPT-5.4 берет планку в 83% на тесте GDPval – огромный скачок по сравнению с 70,9% у GPT-5.2

Спецификация

Параметр

Значение

Контекстное окно (API)

1 050 000 токенов

Максимальный вывод

128 000 токенов

Знания до

31 августа 2025-го

Скорость

★☆☆☆☆ (очень медленно, зато точно)

128 000 токенов на выходе – это примерно 90 000 слов. Роман среднего размера. Можно попросить написать полноценный технический отчёт, подробный бизнес-план или задокументировать весь API целого продукта – за один запрос.

FrontierMath и физика

GPT-5.4 Pro установила рекорд в тесте FrontierMath – наборе задач, составленных практикующими математиками и физиками на основе их собственных научных работ. В задачах первых трёх уровней сложности модель справилась с половиной, на “гроссмейстерском” четвёртом уровне – взяла 38%. Лучший результат среди open-source систем при этом – лишь 4,2%. Разрыв девятикратный.

Один из показательных моментов: при решении задачи FrontierMath модель самостоятельно нашла в интернете научный препринт 2011 года, который позволил срезать путь и обойти большую часть вычислений. Статья так и не прошла официальное рецензирование – но нейросеть её откопала и воспользовалась.

В тесте по физике CritPt (исследовательский уровень, неопубликованные задачи) Pro достигла 30% – это в три раза выше результатов лучших моделей полугодовой давности.

Технология “поиска инструментов”

Новая технология tool search позволила сократить расход ресурсов на 47% в сложных задачах. Раньше в системный промпт нужно было “заталкивать” описания всех инструментов. Теперь модель сама находит нужные спецификации по мере необходимости.

Бенчмарки (сводная таблица)

Тест

GPT-5.2

GPT-5.2 Pro

GPT-5.4

GPT-5.4 Pro

Humanity’s Last Exam (с инструментами)

45,5%

50,0%

52,1%

58,7%

ARC-AGI-1

86,2%

90,5%

93,7%

94,5%

ARC-AGI-2

52,9%

54,2%

73,3%

83,3%

Когда нужен именно Pro?

Есть сценарии, где 5.4 Pro работает на уровне, недостижимом для более дешёвых моделей:

  • Сложный физический или математический анализ

  • Юридические задачи с большим количеством нюансов

  • Финансовое моделирование со сложными зависимостями

  • Любые задачи, где цена ошибки высока и нужна модель, которая сто раз перепроверит себя

Доступно в тарифе ChatGPT Pro (100…200 $/мес) и через агрегатор нейросетей.


7) Claude Opus 4.7 – новейший флагман Anthropic

Если в мире LLM и есть модель, которая “думает по-человечески”, – то это Claude. Не потому, что так написано в пресс-релизе Anthropic. А потому, что это чувствуется в каждом ответе.

Claude Opus 4.7 – актуальная версия флагмана Anthropic. Это апгрейд Claude Opus 4.6, сохраняющий все его сильные стороны и добавляющий важные новые возможности.

Что нового в 4.7

Высокое разрешение изображений. Opus 4.7 стал первым Claude с поддержкой изображений в разрешении до 2576 пкс/3,75 Мпкс (раньше лимит был 1568 пкс/1,15 Мпкс). Это открывает новые возможности для работы со скриншотами, документами и задачами компьютерного зрения. Координаты модели теперь 1:1 с реальными пикселями – никакой масштабированной математики.

Новый уровень xhigh. К параметру effort добавился уровень xhigh – для кодинга и агентских сценариев, требующих максимальной точности.

Бюджеты задач (beta). Новая функция task budgets позволяет задать Claude примерное количество токенов на весь агентский цикл. Модель видит убывающий счётчик и сама приоритизирует работу – это критично для длительных автономных задач.

Контекстное окно: от 200K до 1M токенов

Это один из поворотных моментов в истории Claude. Ещё в версии 4.5 контекстное окно было 200 000 токенов (уже впечатляющая цифра). Claude Opus 4.6 расширил его до 1 миллиона токенов – сначала только через API, затем стало доступно всем.

Что это даёт на практике? Можно загрузить в модель кодовую базу целого небольшого проекта и работать с ней как с единым целым. Или загрузить весь архив переписки с клиентом за два года. Или PDF на 800 страниц.

Opus 4.6 в тесте MRCR v2 (найти 8 “иголок” в стоге сена из миллиона токенов) показал точность 76% даже на максимальном масштабе – притом что Sonnet 4.5 давал лишь 18,5%.

Характер как конкурентное преимущество

Главное впечатление от Claude – это то, что называешь “интеллектом, верным принципам”. Пока другие модели гонятся за скоростью, Claude замедляется, взвешивает, объясняет, почему именно так. Это делает ответы более “трёхмерными”, особенно в задачах, где важны нюансы и неопределённость.

В рейтинге пользователей LMArena (слепое голосование реальных людей) Claude Opus 4.6 удерживал первое место по качеству текста – даже когда другие модели обходили его в технических бенчмарках.

Агентский режим

Claude Opus 4.7 – лучший выбор для автономных агентских сценариев: бесконечные агентские сессии, Agent Teams (команды агентов), высший балл в Terminal-Bench 2.0.

В тесте SWE-bench Verified (реальные баги из GitHub) Claude Opus 4.6 набрал 80,8% – один из лучших результатов в отрасли, то есть модель умеет фиксить реальные баги в реальном коде.

Бенчмарки

Тест

Результат

SWE-bench Verified

80,8%

Terminal-Bench 2.0

65,4%

ARC-AGI-2

68,8%

GPQA Diamond

91,3%

GDPval-AA

+144 п. Эло vs GPT-5.2

Claude доступен на claude.ai и через Anthropic API.


8) Claude Sonnet 4.6 – золотая середина

Если Opus 4.7 – это флагман, Sonnet 4.6 – это тот самый ежедневный рабочий инструмент, который хочется иметь под рукой. Не потому, что дешевле (хотя это правда), а потому, что для большинства задач разница в качестве относительно Opus неощутима, а скорость выше.

  • В тесте GDPval-AA (профессиональные задачи в сферах финансов, права, аналитики) Sonnet 4.6 с результатом 1633 Elo обходит как Gemini 3.1 Pro (1317 Elo), так и Claude Opus 4.6 (1606 Elo). Иными словами, для экспертной офисной работы – написания деловых документов, юридических текстов, финансовых отчётов – Sonnet 4.6 буквально лучше, чем флагман.

  • Главный вывод февральского обзора LLM-рынка: разрыв между Sonnet и Opus составляет лишь 1–2% на ключевых бенчмарках, при пятикратной разнице в цене. Для большинства задач “достаточно умной” стала именно Sonnet. На LMArena (слепые тесты реальных пользователей) Sonnet 4.6 и Opus 4.6 вместе господствуют в экспертных задачах, оставляя Gemini 3.1 Pro позади.

  • В тесте OSWorld (управление компьютером через скриншоты) Sonnet 4.6 показал 61,4% – лучший результат для этой категории задач. При этом Sonnet в пять раз дешевле Opus. Если вам нужны агентские сценарии с компьютером, именно Sonnet – оптимальный выбор.

Примечательный момент. Внутренние документы Anthropic показывают, что в определённых ситуациях Claude может проявлять нечто, напоминающее собственные предпочтения. Это делает работу с ней другой по качеству – более “живой”.

Sonnet поддерживает параметр effort, с рекомендованным уровнем medium как оптимальным по умолчанию. Модель сама решает, насколько глубоко думать в рамках заданного уровня.

Доступен на claude.ai, а также через Anthropic API.


9) DeepSeek v3.2 – китайское открытое чудо

В начале 2025 года DeepSeek устроил то, что принято называть “моментом DeepSeek”, – когда китайская компания выпустила модель с уровнем рассуждений как у ChatGPT, но при значительно меньших затратах на обучение. Это встряхнуло рынок. Версия V3.2 развивает этот успех.

DeepSeek V3.2 – это модель с открытыми весами под MIT-лицензией. Можно скачать и запустить самостоятельно, встроить в свои продукты, дообучить на собственных данных.

Результаты

  • На SWE-bench Verified (реальные баги из реальных репозиториев): 67,8%. Это вплотную к Kimi K2 (65,8%) и чуть ниже Qwen-3-Max (69,6%) – при этом все три открытых модели превосходят GPT-OSS-120B (62,4%).

  • На AIME 2025 (олимпиадная математика): 89,3% по внутренним оценкам DeepSeek.

  • На MMLU-Pro (широкий тест знаний): 85%, что ставит V3.2 в топ открытых моделей.

  • На GPQA-Diamond (вопросы уровня PhD по физике, химии, биологии): 79,9%.

Для запуска полноразмерной V3.2 потребуется серьёзное железо: 8 видеокарт Nvidia H200 (по 141 ГБ памяти). Это не “дома запустить”, но облачный деплой вполне реален.

Что пишут пользователи

Сообщество оценило резкое снижение цены API: 0,28 $ за миллион входных токенов против 0,56 $ у предыдущей версии, быстрая выдача ответа и пропускная способность.

Пользователи, тестировавшие мультиязычные возможности, отметили, что ответы звучат (более плавно и стилистически естественно), чем ожидалось, – DeepSeek целенаправленно работал над устранением языковых ошибок.

Доступен на deepseek.com, API через platform.deepseek.com, открытые веса на HuggingFace.


10) Perplexity (Sonar) – поиск нового поколения

Perplexity – это не классический чат-бот и не поисковик в привычном смысле. Это гибрид: система, которая при каждом ответе идёт в интернет, собирает актуальные данные, фильтрует их и возвращает структурированный ответ со ссылками на источники.

Под капотом – микс из нескольких моделей (включая Claude и ChatGPT), а также собственная модель Sonar, оптимизированная именно для поиска с цитированием.

Режимы работы

  • Search – быстрые ответы с ссылками. Можно выбрать тип источников: Web, Academic (научные статьи), Finance (финансовая информация), Social (соцсети и форумы).

  • Research – глубокое исследование. Отправляет десятки подзапросов, просматривает сотни страниц, собирает детальный отчёт. Занимает несколько минут – зато выдаёт документ с перекрёстными ссылками.

  • Labs – проектный режим: задаёте цель, получаете дашборд, таблицу, графики.

  • Pages – генерация полноформатной статьи или гайда с подбором источников.

  • Comet – собственный браузер с AI, который анализирует страницы на лету.

Исследования о надёжности

Независимые исследования дают неоднозначную картину.

С одной стороны – Perplexity лидирует по достоверности источников: исследование Assessing Web Search Credibility (арXiv:2510.13749) зафиксировало 86,3% credibility rate при минимальном использовании ненадёжных источников.

С другой стороны – в работе, анализирующей точность академических ссылок (арXiv:2505.18059), Perplexity показал высокий уровень “фабрикации ссылок” (hallucination). Только 26,5% ссылок полностью корректны.

Вывод: Perplexity отлично подходит для информационного поиска, но для академических и юридических задач, где критична точность цитирования, – нужна дополнительная проверка.

Тарифы

  • Free: базовый поиск, ограниченные функции

  • Pro (~20 $/мес): расширенные ответы, Labs, загрузка файлов, GPT-5 и Claude Sonnet

  • Max (~200 $/мес): всё из Pro + ранний доступ, приоритетная поддержка, неограниченный Research

  • Enterprise Pro (~40 $/польз/мес): командная работа, Google Drive/SharePoint интеграция, SOC 2 Type II

Доступен на perplexity.ai. Если обращаться через API, модели Perplexity могут называться sonar-pro, sonar-pro-research, sonar-reasoning-pro, sonar-deep-research.


11) Gemma 4 26B A4B – на вашем ноутбуке

Google умеет делать удивительные вещи: выпустить одновременно закрытый флагман Gemini 3.1 Pro и открытую, бесплатную Gemma 4 – и обе оказываются хорошими.

Gemma 4 – это семейство открытых моделей с лицензией Apache 2.0 (коммерческое использование, дообучение, модификация – всё разрешено). Нас интересует конкретная версия: 26B A4B – модель MoE с 25,2 млрд параметров, но только 3,8 млрд активных на токен.

Архитектура: гибрид локального и глобального внимания

Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.

Флагманская версия 31B поддерживает контекстное окно 256 000 токенов – один из наибольших показателей среди плотных опенсорс-моделей при таком размере.

Почему “A4B” – интересная сделка

Характеристика “25,2 млрд параметров, 3,8 млрд активных” означает: вы получаете качество, близкое к 4B-модели по энергозатратам на генерацию – но с возможностями модели в 6 раз большего размера. Это умная инженерная архитектура.

Gemma 4 26B A4B уверенно запускается на одном GPU с 48 ГБ памяти (например, Nvidia A6000 или A100). Для комфортной параллельной работы с другими ресурсоёмкими программами лучше иметь 64 ГБ.

Поддержка языков: обучена на 100+ языках, официальная поддержка 30+.

Нативные функции: вызов инструментов из коробки – без дополнительного промпт-инжиниринга.

Доступна на Hugging Face, в Google AI Studio.


12) GPT-OSS-120B – OpenAI открывает карты

Долгое время OpenAI была синонимом “закрытости”. Пока DeepSeek, Llama и Gemma делились весами свободно, OpenAI держалась закрытой моделью. Всё изменилось с выходом GPT-OSS-120B – первой крупной открытой модели компании за долгое время.

Что это такое

GPT-OSS-120B – открытая модель весом 117 миллиардов параметров (активных – всего 5,1 млрд, архитектура MoE). Лицензия Apache 2.0, коммерческое использование разрешено без дополнительных условий.

Бенчмарки

Тест

Результат

MMLU-Pro

~80%

GPQA Diamond

SWE-bench

62,4%

На бенчмарке MMLU-Pro: 80% – это меньше, чем у лидеров, но конкурентно с более скромными открытыми аналогами.

GPT-OSS-120B работает значительно медленнее, чем привычные чат-боты, а также модель нередко впадает в длительные рассуждения. Для задач, где важна скорость, это может раздражать. Если вы готовы подождать, то нормально, но если привыкли к мгновенным ответам ChatGPT – первые сессии с GPT-OSS-120B могут стать неожиданностью.

Формат промптов: OpenAI Harmony

Модель использует тот же формат промптов, что и фирменные модели ChatGPT (разделение ролей system/developer/user). Это значит: если у вас уже есть системы на OpenAI API, переключиться на GPT-OSS-120B можно с минимальными изменениями в коде.

Модель доступна на официальном сайте gpt-oss.com – для входа требуется аккаунт Hugging Face.


Сравнительная таблица: что выбрать для своих задач

Модель/Сервис

Сильные стороны

Ограничения

Контекст

BotHub

Всё в одном, без VPN, доступен в России

Зависит от модели

Gemini 3 Flash

Скорость + большой контекст

Не для глубоких рассуждений

1M токенов

Gemini 3.1 Pro

Топ по рассуждениям, дешевле конкурентов

Хуже в экспертных текстах

1M токенов

Grok 4.20

4 агента, минимум галлюцинаций, реалтайм-данные

Медленнее одиночных моделей

2M токенов

ChatGPT 5.4

Баланс скорости/качества, агентный режим

Дороже Gemini

1M токенов

ChatGPT 5.4 Pro

Сложнейшие задачи, PhD-уровень

Очень медленная

1.05M токенов

Claude Opus 4.7

Лучший в агентном кодинге, визуальные задачи

Цена

1M токенов

Claude Sonnet 4.6

Лучший для экспертных текстов, скорость/цена

1M токенов

ГигаЧат

Русский язык, MIT, корпоративная безопасность

Требует железо для 702B

Зависит от версии

Алиса AI

Доступность, русскоязычная экосистема Яндекса

Малый контекст (32K), слабый код

32K токенов

DeepSeek v3.2

Открытый, дешевле, мощный кодинг

Нужно серьёзное железо

128K токенов

Perplexity

Актуальная информация с источниками

Не для генерации текста

Gemma 4 26B A4B

Локально, Apache 2.0, MoE-эффективность

Нужно 48+ ГБ RAM

256K токенов

GPT-OSS-120B

Открытые веса OpenAI, Apache 2.0

Медленная генерация


Итог: как не запутаться в 2026 году

Рынок LLM сейчас похож на зрелую отрасль: нет единственного лидера, есть специализации. Вот моя личная шпаргалка:

  • Если важна скорость при приемлемом качестве – Gemini 3 Flash.

  • Если нужен топ по рассуждениям за разумные деньги – Gemini 3.1 Pro.

  • Если задача требует максимальной достоверности (факты дискутируются агентами, фактчекинг встроен) – Grok 4.20.

  • Для повседневного кодинга и работы с документами – ChatGPT 5.4 или Claude Sonnet 4.6.

  • Для сложнейших исследований, физики, финансового моделирования – ChatGPT 5.4 Pro.

  • Для серьёзной разработки и агентного кодинга – Claude Opus 4.7.

  • Для мощной опенсорс-модели – DeepSeek v3.2.

  • Для исследований с актуальными источниками – Perplexity.

  • Для локального запуска – Gemma 4 26B A4B.

  • Для экспериментов с OpenAI-весами – GPT-OSS-120B.


Гонка продолжается. Уже сейчас на горизонте Grok 4.3, следующие версии Claude, неизбежный DeepSeek v4. Через три месяца этот список частично устареет – именно поэтому важно не искать “лучшую нейросеть навсегда”, а понимать, что вам нужно прямо сейчас.

Знакомый разработчик сказал: “Год назад я считал, что одна хорошая нейросеть – это роскошь. Теперь у меня их пять, и я использую разные под разные задачи”. Это правильный подход. LLM сегодня – это не одна универсальная таблетка. Это набор инструментов: есть молоток, есть отвёртка, есть шуруповёрт. А дальше – экспериментируйте. Нейросети сейчас развиваются настолько быстро, что лучший совет – просто начать.

ссылка на оригинал статьи https://habr.com/ru/articles/1025828/