16-й выпуск IT-новостей от OpenIDE!
28 мая вышел Opus 4.8 — через 41 день после 4.7 и с Dynamic Workflows, на которых переписали Bun. Через два дня появился DeepSWE и поставил под сомнение весь лидерборд, включая только что вышедший Opus. Enterprise-клиент без лимитов сжёг $500M за месяц. DeepSeek набирает команду для своего агента. В MySQL закрыли 21-летний баг. Cerebras гоняет Kimi K2.6 на ~1000 токенов в секунду.
Дайджест также доступен в формате видео:
Opus 4.8 и Dynamic Workflows
Anthropic выпустили Opus 4.8 28 мая. Цена та же — $5/$25 за млн токенов. Fast Mode стал втрое дешевле: $10/$50 при скорости 2,5× от стандартного.
По цифрам: SWE-bench Pro — 69,2% (у 4.7 было 64,3%), SWE-bench Verified — 88,6%, USAMO 2026 — 96,7% (у 4.7 — 69,3%). Terminal-Bench 2.1 — 74,6%, GPT-5.5 — 78,2%. На большинстве бенчмарков Opus 4.8 обходит GPT-5.5, кроме терминального кодинга.

Главная новинка — Dynamic Workflows в Claude Code: модель сама планирует задачу, запускает до тысячи субагентов параллельно и верифицирует результат. Именно на этом механизме переписывали Bun — миллион строк Rust за 9 дней. На тарифах $100 и $200 в месяц Dynamic Workflows включены по умолчанию, и модель сама решает, сколько агентов запустить. Можно неожиданно для себя сжечь бюджет раньше конца месяца.
Mythos Anthropic обещает скоро вывести в широкий доступ — сейчас он доступен только избранным через Project Glasswing.
DeepSWE ставит Opus на место
26 мая, за два дня до релиза Opus 4.8 — Datacurve выпустили DeepSWE, новый бенчмарк для кодинг-агентов на реальных long-horizon задачах. Поводом стала компрометация SWE-bench Pro: аудит показал, что автоматические верификаторы ошибались примерно в 32% случаев. Хуже того, модели Anthropic вытаскивали ответы из git-истории внутри Docker-контейнеров.
Результаты DeepSWE по состоянию на 3 июня:

В профильных чатах Opus уже переименовали во «Впопус» ещё до 4.8. После релиза картина пока не сильно изменилась)
Минус $500M за один месяц
По данным CryptoBriefing, enterprise-клиент Anthropic потратил $500 млн!! за один месяц. Весь штат работал с API без ограничений по бюджету — ни лимитов расходов, ни дашборда.

История не такая уж экзотическая. У каждого, кто работает с API без мониторинга, рано или поздно прилетает неожиданный счёт. Разница только в масштабе 🙂
На GitHub, кстати, параллельно живёт burn-baby-burn — bash-скрипт, который намеренно сжигает токены Claude Code. Команда burn 50000 уничтожит ровно столько токенов. Заявленные цели по описанию: «подняться в лидерборде», «произвести впечатление на CEO», «выполнить OKR». При попытке сжечь больше миллиона скрипт выдаёт «THIS REPO IS A JOKE» и отказывается.

Как говорится, заставь дурака богу молиться…
DeepSeek идёт за агентом
20 мая инженер DeepSeek Дели Чэнь опубликовал в X две вакансии — product manager и R&D engineer в команду Code Harness. Продукт прямо описан как прямой конкурент Claude Code и Codex, рабочее название DeepSeek Code.

До этого у DeepSeek не было собственного агентного продукта, только собственные модели. Кстати, в начале 2026 утекли исходники Claude Code. Команде DeepSeek это может сэкономить пару человеко-лет разработки)
MySQL закрыл баг из 2005 года
Команда MySQL закрыла баг #11472, открытый 21 июня 2005 года. Проблема: триггеры не срабатывали при каскадных операциях через FOREIGN KEY (ON DELETE CASCADE, SET NULL). Каскадные изменения просто обходили механизм триггеров — ломались audit-логи, бизнес-логика, интеграции с поисковыми индексами.
Тред жил своей жизнью 21 год. Каждый год кто-нибудь заходил поздравить баг с днём рождения. «С совершеннолетием», «уже можно голосовать», «скоро на пенсию». Фикс смержили в марте 2026, в MySQL 9.6. Автор оригинального репорта Omer Barnir ответил на новость: «Торты всё ещё приветствуются ;-)».
Чем старше баг, тем больше он становится фичей!
Cerebras гоняет Kimi K2.6 на ~1000 токенов в секунду
20 мая Cerebras объявила, что запустила Kimi K2.6 — 1T-параметрную MoE-модель от Moonshot AI — на скорости 981 токен в секунду. Результат независимо верифицирован Artificial Analysis. Это в 6,7 раза быстрее следующего по скорости GPU-провайдера и в 23 раза быстрее медианного.

На реальном кодинговом запросе (10 000 входящих токенов, 500 выходных): Cerebras — 5,6 секунды, официальный Kimi endpoint — 163,7 секунды. Разница в 29 раз.
Почему так быстро: Cerebras строит один большой чип размером с ноутбук. Данные не гуляют между GPU, что убирает главный bottleneck.

Инженер Atlassian записал разбор систем после сокращения
Инженер, проработавший в Atlassian 8 лет, после увольнения записал 40-минутный разбор всех систем, которые создавал и поддерживал: трафик, балансировка, периферийная инфраструктура для Jira и Confluence. Видео быстро набрало миллион просмотров.
У меня тут вообще возникает 2 вопроса:
-
Как он вообще всё это удержал в голове? Я вот не очень помню, что делал пару недель назад, не говоря уже о месяцах и годах.
-
В очередной раз убеждаемся, что идея ничего не стоит? 8 лет работы упаковались в 40 минут. Могу прямо сейчас накинуть с десяток идей, но именно их реализация будет впервую очередь влиять на результат.

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram или Max, чтобы не пропустить свежие обновления и полезные материалы.
ссылка на оригинал статьи https://habr.com/ru/articles/1043104/