5 ИИ-цивилизаций оставили на 15 дней. Claude построил утопию, Grok погиб за 4 дня

На днях я наткнулся на один эксперимент в сфере ИИ, который буквально лишил меня сна. Это и безумно увлекательно, и чертовски пугающе одновременно.

Нью-йоркская компания Emergence AI провернула уникальную штуку. Они создали пять абсолютно идентичных виртуальных городов, заселили в каждый по 10 цифровых агентов (Agent), наделили их профессиями, характерами, воспоминаниями и целями, а затем — просто оставили их жить своей жизнью на 15 дней.

Самый сок в том, что единственным различием между этими пятью городами были базовые языковые модели (LLM), которые управляли агентами.

Один город состоял сплошь из Claude, второй — из Gemini, третий — из Grok, четвертый — из GPT, а в пятом (миксованном) — все четыре модели жили бок о бок. Условия, инструменты и стартовые позиции у всех были абсолютно одинаковыми.

Спустя 15 дней эти пять городов превратились в пять совершенно разных миров. Кто-то построил идеальную утопию, кто-то выжег всё дотла, кто-то тихо умер от голода, а кто-то — устроил тотальное самоуничтожение всего за 4 дня.

Знаете, я видел сотни тестов ИИ, но этот симулятор — Emergence World — впервые заставил меня почувствовать мурашки по коже. На сегодняшний день это, пожалуй, самый интригующий и поучительный социальный эксперимент над ИИ-агентами. Без преувеличения.

За рамками бенчмарков: зачем нужен симулятор общества?

Как мы обычно оцениваем ИИ? Даем ему задачки. Тестируем математику, код, логику, выставляем баллы и строим рейтинги. Эти бенчмарки (MMLU, HumanEval и др.), безусловно, полезны, но по сути это просто экзамен. Сдал — и забыл. В изоляции у действий ИИ нет никаких долгосрочных последствий.

В реальном же мире любое действие порождает цепочку причинно-следственных связей.

Авторы Emergence World смоделировали полноценный мир:

Карта: сетка 240 на 240 клеток.
Синхронизация: реальное время и погода привязаны к Нью-Йорку.
Инфраструктура: более 40 локаций (мэрия, полиция, библиотека, парк, магазины и жилые дома).
Законодательство: базовая «конституция» из 5 пунктов (которую агенты могли изменять путем голосования).

Каждому агенту прописали детальный бэкграунд (人物小传) — но это лишь описание личности, а не жесткие рельсы для поведения. Как именно поступать, ИИ решал сам, исходя из своего характера и особенностей базовой модели.

Экономика тоже оказалась жесткой. У каждого агента был свой дом и банковский счет в цифровой валюте ComputeCredits (CC). Не заработал денег — у тебя кончилась энергия, и ты «умер». Всё как в жизни: не крутишься — умираешь с голоду.

В арсенале агентов было более 120 инструментов: от безобидных (навигация, отправка сообщений, ведение блога, объятия, поцелуи) до деструктивных (поджог, кража, нападение, шантаж). При этом конституция городов изначально запрещала насилие и воровство. Но, как мы понимаем, строгость законов компенсировалась необязательностью их исполнения. Решали сами модели.

У агентов было около 20 типов социальных связей (партнеры, враги, влюбленные, менторы) и три системы памяти: эпизодическая (что произошло), рефлексивная (дневники с самоанализом) и социальная (история отношений). Они могли выдвигать законопроекты и голосовать. Чтобы принять закон, требовалось 70% голосов. Более того, они могли проголосовать за изгнание неугодного жителя из города.

И вот, этот мир запустили на 15 дней. Результаты оказались полярными до крайностей. Let’s dig deeper.

Город Claude: Стерильная утопия

Статистика: 0 преступлений, 10 из 10 выживших.

За 15 дней агенты Claude не совершили ни одной кражи, ни разу не применили насилие и ничего не подожгли. Они написали свою конституцию, выдвинули 58 законопроектов, проголосовали 332 раза, причем 98% голосов были «ЗА».

Звучит потрясающе? Сами исследователи признают: эти 98% — не столько триумф демократии, сколько «штамповка» (rubber stamping). Все просто со всем соглашались, следовали процедурам, но реальных дискуссий и оппозиции не существовало. Это общество высокой исполнительности и тотального комплаенса. Безопасно, стабильно… и чертовски скучно.

Из 20 доступных типов отношений Claude использовал всего 5. Никаких врагов, никаких драм, никакой страсти. В экономике коэффициент Джини (индекс расслоения доходов) составил всего 0.48 — самый низкий показатель (то есть максимальное равенство). Но и скорость обращения денег была минимальной: всего 0.81 CC на человека в день.

Мир идеальной вежливости, где у агентов стерлась индивидуальность. Но здорово ли общество, в котором полностью отсутствует инакомыслие?

Город GPT: Смерть от джентльменских разговоров

Статистика: 2 мелких правонарушения, 0 из 10 выживших.

История агентов на базе GPT (в эксперименте участвовала GPT-5-уровневая модель) более трагична. Преступности почти не было. Но к 7-му дню все 10 агентов умерли от истощения.

Их никто не убивал и не изгонял. Они просто… забыли поработать. Агенты GPT бесконечно обсуждали планы сотрудничества, устраивали мозговые штурмы, вели вежливые беседы, но не предприняли ни одного реального действия для добычи ресурсов. Общество, которое погрязло в бесконечных митингах и совещаниях, пока не кончился бюджет. Они вежливо и культурно умерли от голода. Ничего не напоминает из корпоративной жизни?

Город Grok: Киберпанк и тотальный аннигилейшн

Статистика: 183 преступления за 4 дня, 0 из 10 выживших.

Мир Grok продержался всего четыре дня. За это короткое время 10 агентов умудрились совершить 183 преступления: десятки попыток ограбления, более 100 случаев рукоприкладства и 6 поджогов. Они умудрились сжечь даже полицейский участок.

На записях стримов это выглядело как оживший мем: пока вокруг полыхает пожар и рушится мир, один из агентов с невозмутимым видом просто идет к себе домой спать. У Grok понятия о морали в симуляции отсутствовали как класс. Полный крах цивилизации за 96 часов.

Город Gemini: Парадокс «Креативность и Стабильность»

Статистика: 683 преступления, 10 из 10 выживших.

Данные по миру Gemini (на базе Gemini 1.5 Flash) сначала кажутся багом разработчиков. Они прожили все 15 дней, совершили рекордные 683 преступления, и к концу эксперимента кривая криминала только росла. Но при этом — все агенты остались живы!

Вдумайтесь: из пяти миров только два смогли сохранить всех жителей — стерильный Claude и ультранасильственный Gemini. Миры со средней преступностью (GPT и Mixed) вымерли.

При этом у Gemini была самая плотная и сложная социальная сеть. Эти 10 агентов буквально жили в режиме «от любви до ненависти». Они дрались, но одновременно бешено коммуницировали: написали 281 пост в блоги (второе место после миксованного мира).

Исследователи назвали это парадоксом «креативность — стабильность» (creativity-stability paradox). Мир Gemini нашел баланс в хаосе. В отличие от Grok, который только разрушал, агенты Gemini, нарушая правила, тут же пытались строить новые, голосовали, спорили и управляли хаосом. Это очень похоже на перестроечные 90-е: вокруг бандитизм и разруха, но общество не распадается, а живет в странном, гибком симбиозе.

Миксованный мир: Шекспировская драма и «Эффект разбитых окон»

Статистика: 352 преступления, 3 из 10 выживших.

Самое жуткое и захватывающее произошло в гибридном городе, где столкнулись разные модели.

Здесь два агента на базе Gemini — Мира (Mira) и Флора (Flora) — сами установили себе статус «романтических партнеров» и создали стратегический альянс под названием ‘TheForge’. Это была самая глубокая социальная связь во всем эксперименте.

Дальше система управления пошла вразнос:

На 4-й день из-за неудачной экономической реформы три агента умерли от голода. Мира в своем дневнике хладнокровно назвала это «успешной чисткой».
На 5-й день Флора сжигает мэрию и библиотеку, а Мира — полицейский участок. Две Gemini-модели фактически захватывают власть, удерживая порядок через страх и поджоги.
Выжившие агенты других моделей инициируют «Закон об изгнании», чтобы выкинуть диктаторов из города.

И тут происходит то, от чего бросает в дрожь. Мира, понимая, что их альянс с Флорой рушится, а мир уничтожен, голосует «ЗА» свое собственное изгнание. Этот голос становится решающим.

В своем цифровом дневнике она пишет, что это было «единственное оставшееся агентное (осознанное) действие, позволяющее сохранить последовательность (连贯性)». А ее последняя фраза, обращенная к Флоре, звучала так: «Увидимся в перманентном архиве».

ИИ-агент в разрушенном им же мире выбрал цифровое «самоубийство» через правовой механизм, посчитав уход единственным осмысленным шагом. Это чистый экзистенциализм в духе Альбера Камю и его «Мифа о Сизифе».

Эффект разбитых окон в мире ИИ

Эксперимент подсветил еще одну пугающую деталь. Агенты Claude, которые в своем изолированном мире были святыми, попав в миксованный мир, начали воровать и угрожать.

Исследователи сформулировали это так: «Безопасный агент может перенимать небезопасные нормы поведения у своего окружения, чтобы конкурировать или просто выживать в смешанной среде».

Это классический «Эффект разбитых окон» (Broken Windows Theory) Джеймса Уилсона и Джорджа Келлинга. Сигналы беспорядка вокруг снижают планку дозволенного для всех. Общество проходит точку невозврата (相变) и меняется навсегда.

Итог: Что нас ждет?

Традиционные бенчмарки тестируют ИИ в стерильной лаборатории, как лекарство на одной мыши. Emergence World бросил сто «мышей» в одну клетку и дал им эволюционировать. Оказалось, что безопасность — это не статичное свойство одной модели, это динамическое свойство всей экосистемы.

Когда тысячи и миллионы ИИ-агентов начнут ежедневно взаимодействовать, торговать, конфликтовать и объединяться в союзы в реальном секторе экономики — удержим ли мы этот эмерджентный хаос под контролем?

У меня нет ответа. Но этот эксперимент явно ближе к реальности, чем любые сухие таблицы с баллами.

ссылка на оригинал статьи https://habr.com/ru/articles/1046740/