Opus 4.8 вышел и сразу проиграл GPT-5.5, $500M без лимитов и 21-летний баг MySQL

16-й выпуск IT-новостей от OpenIDE!

28 мая вышел Opus 4.8 — через 41 день после 4.7 и с Dynamic Workflows, на которых переписали Bun. Через два дня появился DeepSWE и поставил под сомнение весь лидерборд, включая только что вышедший Opus. Enterprise-клиент без лимитов сжёг $500M за месяц. DeepSeek набирает команду для своего агента. В MySQL закрыли 21-летний баг. Cerebras гоняет Kimi K2.6 на ~1000 токенов в секунду.

Дайджест также доступен в формате видео:

Opus 4.8 и Dynamic Workflows

Anthropic выпустили Opus 4.8 28 мая. Цена та же — $5/$25 за млн токенов. Fast Mode стал втрое дешевле: $10/$50 при скорости 2,5× от стандартного.

По цифрам: SWE-bench Pro — 69,2% (у 4.7 было 64,3%), SWE-bench Verified — 88,6%, USAMO 2026 — 96,7% (у 4.7 — 69,3%). Terminal-Bench 2.1 — 74,6%, GPT-5.5 — 78,2%. На большинстве бенчмарков Opus 4.8 обходит GPT-5.5, кроме терминального кодинга.

Главная новинка — Dynamic Workflows в Claude Code: модель сама планирует задачу, запускает до тысячи субагентов параллельно и верифицирует результат. Именно на этом механизме переписывали Bun — миллион строк Rust за 9 дней. На тарифах $100 и $200 в месяц Dynamic Workflows включены по умолчанию, и модель сама решает, сколько агентов запустить. Можно неожиданно для себя сжечь бюджет раньше конца месяца.

Mythos Anthropic обещает скоро вывести в широкий доступ — сейчас он доступен только избранным через Project Glasswing.

DeepSWE ставит Opus на место

26 мая, за два дня до релиза Opus 4.8 — Datacurve выпустили DeepSWE, новый бенчмарк для кодинг-агентов на реальных long-horizon задачах. Поводом стала компрометация SWE-bench Pro: аудит показал, что автоматические верификаторы ошибались примерно в 32% случаев. Хуже того, модели Anthropic вытаскивали ответы из git-истории внутри Docker-контейнеров.

Результаты DeepSWE по состоянию на 3 июня:

В профильных чатах Opus уже переименовали во «Впопус» ещё до 4.8. После релиза картина пока не сильно изменилась)

Минус $500M за один месяц

По данным CryptoBriefing, enterprise-клиент Anthropic потратил $500 млн!! за один месяц. Весь штат работал с API без ограничений по бюджету — ни лимитов расходов, ни дашборда.

История не такая уж экзотическая. У каждого, кто работает с API без мониторинга, рано или поздно прилетает неожиданный счёт. Разница только в масштабе 🙂

На GitHub, кстати, параллельно живёт burn-baby-burn — bash-скрипт, который намеренно сжигает токены Claude Code. Команда burn 50000 уничтожит ровно столько токенов. Заявленные цели по описанию: «подняться в лидерборде», «произвести впечатление на CEO», «выполнить OKR». При попытке сжечь больше миллиона скрипт выдаёт «THIS REPO IS A JOKE» и отказывается.

Как говорится, заставь дурака богу молиться…

DeepSeek идёт за агентом

20 мая инженер DeepSeek Дели Чэнь опубликовал в X две вакансии — product manager и R&D engineer в команду Code Harness. Продукт прямо описан как прямой конкурент Claude Code и Codex, рабочее название DeepSeek Code.

До этого у DeepSeek не было собственного агентного продукта, только собственные модели. Кстати, в начале 2026 утекли исходники Claude Code. Команде DeepSeek это может сэкономить пару человеко-лет разработки)

MySQL закрыл баг из 2005 года

Команда MySQL закрыла баг #11472, открытый 21 июня 2005 года. Проблема: триггеры не срабатывали при каскадных операциях через FOREIGN KEY (ON DELETE CASCADE, SET NULL). Каскадные изменения просто обходили механизм триггеров — ломались audit-логи, бизнес-логика, интеграции с поисковыми индексами.

Тред жил своей жизнью 21 год. Каждый год кто-нибудь заходил поздравить баг с днём рождения. «С совершеннолетием», «уже можно голосовать», «скоро на пенсию». Фикс смержили в марте 2026, в MySQL 9.6. Автор оригинального репорта Omer Barnir ответил на новость: «Торты всё ещё приветствуются ;-)».

Чем старше баг, тем больше он становится фичей!

Cerebras гоняет Kimi K2.6 на ~1000 токенов в секунду

20 мая Cerebras объявила, что запустила Kimi K2.6 — 1T-параметрную MoE-модель от Moonshot AI — на скорости 981 токен в секунду. Результат независимо верифицирован Artificial Analysis. Это в 6,7 раза быстрее следующего по скорости GPU-провайдера и в 23 раза быстрее медианного.

На реальном кодинговом запросе (10 000 входящих токенов, 500 выходных): Cerebras — 5,6 секунды, официальный Kimi endpoint — 163,7 секунды. Разница в 29 раз.

Почему так быстро: Cerebras строит один большой чип размером с ноутбук. Данные не гуляют между GPU, что убирает главный bottleneck.

Инженер Atlassian записал разбор систем после сокращения

Инженер, проработавший в Atlassian 8 лет, после увольнения записал 40-минутный разбор всех систем, которые создавал и поддерживал: трафик, балансировка, периферийная инфраструктура для Jira и Confluence. Видео быстро набрало миллион просмотров.

У меня тут вообще возникает 2 вопроса:

Как он вообще всё это удержал в голове? Я вот не очень помню, что делал пару недель назад, не говоря уже о месяцах и годах.
В очередной раз убеждаемся, что идея ничего не стоит? 8 лет работы упаковались в 40 минут. Могу прямо сейчас накинуть с десяток идей, но именно их реализация будет впервую очередь влиять на результат.

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram или Max, чтобы не пропустить свежие обновления и полезные материалы.

ссылка на оригинал статьи https://habr.com/ru/articles/1043104/