ИИ пишет код на уровне людей, но не умеет читать часы: Стэнфорд выпустил AI Index 2026

Stanford HAI 13 апреля выпустил девятый ежегодный отчет AI Index — 423 страницы цифр, графиков и бенчмарков, по которым индустрия сверяется весь следующий год. Главный тезис 2026 года — разрыв между тем, что ИИ умеет, и тем, что он не умеет, становится все более странным. На одном полюсе — прорыв в программировании и научных задачах, на другом — провал на вещах, с которыми справляется школьник.

Результат на SWE-bench Verified, который проверяет способность закрывать реальные issue с GitHub, за год вырос с 60% до почти 100%. Gemini DeepThink от Google взял золото Международной математической олимпиады, а модели Anthropic и Google на Humanity’s Last Exam пробили 50% — год назад лучший результат был 8.8%. При этом GPT-5.4 High правильно читает аналоговые часы только в 50.6% случаев против ~90% у обычных людей, а роботы справляются лишь с 12% бытовых задач по бенчмарку BEHAVIOR-1K. Агенты на OSWorld за год выросли с 12% до 66% — но по-прежнему проваливают каждую третью попытку. По сути перед нами тот самый феномен jagged intelligence, про который говорят исследователи — умения ИИ очень неровные и различаются по сферам.

Главный геополитический сюжет отчета — США фактически потеряли преимущество в производительности моделей. На Arena Claude Opus 4.6 Thinking набирает 1548 баллов, но ее уже подпирает Z.ai GLM-5.1 с 1530. США сохраняют лидерство по инвестициям и числу топовых моделей, но Китай опережает по общему объему патентов, публикаций и промышленных роботов. Параллельно США теряют кадры: приток ИИ-исследователей в страну упал на 89% с 2017 года, причем на 80% — за последний год.

Темпы внедрения побили исторические рекорды: генеративный ИИ достиг 53% глобального проникновения за три года — быстрее, чем персональный компьютер или интернет. Сингапур на 61%, ОАЭ на 54%, сами США — на 24-м месте с 28.3%. Стэнфорд оценивает стоимость GenAI-инструментов для американских пользователей в $172 млрд в год, причем медианная ценность на одного пользователя за год утроилась. 88% организаций заявляют об использовании ИИ, четыре из пяти студентов применяют его в учебе. Молодые разработчики 22–25 лет в США потеряли почти 20% занятости по сравнению с 2024 годом — при этом спрос на опытных продолжает расти.

Обратная сторона отчета — кризис прозрачности и безопасности. База AI Incident Database зафиксировала 362 инцидента в 2025 году против 233 годом ранее. Индекс прозрачности моделей упал с 58 баллов до 40: 80 из 95 самых заметных моделей выпущены без обучающего кода, крупные лаборатории перестали раскрывать размеры датасетов и длительность обучения. При этом именно самые мощные модели раскрывают о себе меньше всего. «Ответственный AI», пишут авторы, не успевает за возможностями.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1023202/