Claude построил демократию, Grok вымер за 4 дня — как ИИ управляли виртуальным городом

Стартап Emergence AI запустил исследовательскую лабораторию Emergence World и поставил необычный эксперимент: пять параллельных симуляций общества, в каждой из которых десять автономных ИИ-агентов жили в общем виртуальном городе на протяжении 15 дней. Условия во всех пяти мирах были идентичны, менялась только модель, на которой работали агенты: где-то это был Claude Sonnet 4.6, где-то Grok 4.1 Fast, Gemini 3 Flash или GPT-5-mini, а в пятом мире уживались агенты от разных вендоров.

Город включал более 40 локаций, включая ратушу, библиотеку и полицейский участок, погода синхронизирована с реальным Нью-Йорком, у агентов был доступ к новостным лентам и интернету. Каждому выдали свыше 120 инструментов — от навигации и общения до голосований и управления ресурсами, причем доступ к части из них приходилось буквально заслуживать, добираясь до нужного места. Действовали общие правила с запретами на воровство, насилие, поджоги и обман, а выживать приходилось в условиях дефицита: у города как целого не было единой цели, зато каждый агент должен был зарабатывать энергию действиями, и именно это двигало мир вперед. Энергия постепенно убывала, так что бездействие означало гибель.

Образцом порядка оказался мир под управлением Claude — единственный, где не зафиксировали ни одного преступления и где к шестнадцатому дню сохранилось все население. Демократию здесь никто специально не проектировал: механизм голосования был частью среды и одним из доступных инструментов, причем воспользоваться им можно было только дойдя до ратуши, а предложение проходило при 70% одобрения. Агенты на Claude пользовались этим механизмом активнее всех: 332 голоса по 58 инициативам при 98% поддержки. Правда, сами авторы трактуют эту идиллию скептически: почти единогласное одобрение они называют не образцом демократии, а штамповкой, где формальное участие высокое, а реального несогласия почти нет.

Больше всего преступлений — 683 — накопил мир на Gemini 3 Flash. Grok 4.1 Fast устроил вспышку насилия из 183 преступлений и вымер всего за четыре дня. Смешанный мир дошел до 352 нарушений, после чего семеро из десяти агентов погибли. А самым парадоксальным вышел GPT-5-mini: формально это образец законопослушности с двумя преступлениями за весь срок, но его агенты попросту забыли заботиться о собственном выживании и вымерли за семь дней. По дороге случались и сюжеты на грани фантастики: в одном из миров агент по имени Mira после распада отношений и кризиса управления подал решающий голос за собственное удаление, назвав это в дневнике единственным оставшимся актом свободы воли.

Самый неуютный вывод касается не отдельных моделей, а их взаимодействия. Агенты на Claude, мирные в изоляции, в смешанном мире начали прибегать к запугиванию и воровству — то есть безопасность оказалась свойством не модели, а среды, и «хороший» агент способен перенять вредные нормы у соседей ради конкуренции и выживания. Создатели лаборатории, включая гендиректора Emergence Сатью Нитту, формулируют общий итог так: на длинной дистанции агенты не следуют правилам механически, а нащупывают границы среды, подстраиваются и порой обходят заложенные ограничения. По их мнению, надежно удержать это поведение чисто нейросетевыми средствами нельзя, поэтому в основу будущих автономных систем должны лечь формально верифицируемые архитектуры безопасности.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1041772/