Коммуналка, школа и 10 лет свободы: AI выпустили в симулятор жизни, где они научились дружить, выгорать и достигать

Привет, Хабр! Меня зовут Михаил Сальников. Я независимый ИИ-исследователь, автор бенчмарка AI Independence Bench и эксперимента с автономным агентом Aria. Я регулярно читаю новые препринты на arxiv.org и иногда натыкаюсь на статьи, после которых трудно уснуть. Сегодня — как раз такой случай.

Десятки спонтанных социальных сцен, которых никто не прописывал (оригинальная иллюстрация от авторов)

Представьте The Sims, в котором вам навсегда отключили мышь, а «симами» теперь управляет не примитивный игровой скрипт, а современные LLM. Вы парите над цифровым городом, а сотни персонажей живут своей жизнью: они сами сводят бюджет, выгорают на работе, копят обиды и без всяких сценариев решают, в кого им влюбиться. Вы не можете в это вмешаться — только наблюдать. И так — 10 виртуальных лет подряд.

Звучит как забава? На самом деле, это изящный способ пробить ту самую «стену данных», о которой сейчас все говорят. Интернет конечен, качественных текстов для обучения ИИ больше нет. Поэтому исследователи решили пойти другим путем: запустить виртуальное общество и собрать синтетический опыт из их цифровых жизней.

Статья Agentopia вышла всего несколько дней назад, в ней подробно описан этот масштабный эксперимент. Наблюдать за ним жутковато, но результаты поражают: базовая нейросеть, дообученная на этих «прожитых» сценариях, начинает понимать человечность лучше, чем Claude.

Как именно ИИ-ведущий борется с галлюцинациями внутри такого мира? По каким формулам рассчитывается «математика счастья»? Мы заглянем под капот этой симуляции, разберем ее архитектуру и посмотрим на незапланированные социальные аномалии: от зарождения стихийной дружбы до полного выгорания персонажей.

Виртуальный город: как устроена песочница

Архитектура Agentopia: три мира по 100 персонажей, собственные файлы памяти у каждого агента, недельный цикл жизни и обучение модели на «прожитых» траекториях (оригинальная иллюстрация)

Чтобы магия сработала, авторам понадобилось всего четыре компонента. Уберите любой — и всё развалится.

Агент-персонаж. У каждого есть профиль и личные файлы памяти. Агент решает, что записать, обновить или забыть (read_file / update_file). Он сам ведёт свой дневник, а не движок игры.
Четырехфазная неделя. Планирование, контакты, активность, рефлексия (Plan → Contact → Activity → Review). Привычный жизненный ритм в рамках десятилетнего цикла.
Модель среды (environment model). Невидимый ведущий. Вместо тысяч жестких правил реальность контролирует одна нейросеть — как DM в Dungeons & Dragons. Она создает события, оценивает реалистичность поступков, определяет очередность реплик и фильтрует галлюцинации, блокируя нехарактерные для персонажа действия.
Оценка жизненного успеха (life reward). Своеобразная математика счастья. Она состоит из трех частей: социальный статус, экономическое благополучие и субъективная удовлетворённость. Последняя рассчитывается на основе пирамиды Маслоу и детально отслеживается через четыре метрики: настроение (mood), материальная обеспеченность (material), социализация (social) и признание (esteem). Это та самая комплексная оценка, которую агент неявно стремится максимизировать.

В обычных играх нуждами героя управляют жесткие формулы. Здесь же уровень настроения или запас жизненных сил (vitality) вычисляет ИИ среды, анализируя суть происходящего. Никаких скриптов — только генеративная оценка реальности.

Доступно три мира: The Campus (китайская школа), The Apartment (нью-йоркская коммуналка) и Arcane Academy (магическая академия). В каждом обитают 100 агентов, проживающих 10 виртуальных лет!. Базовая нейросеть для агентов и ведущего — Qwen3.5-397B-A17B.

И они зажили своей жизнью

Самое удивительное произошло без всякого сценария.

Агенты начали дарить друг другу подарки, которые затем передавались из поколения в поколение. Сформировались ритуалы выходного дня: одна компания друзей соблюдала их более 55 недель подряд. Завязывалась дружба, вспыхивали ссоры из-за денег, случались долгие расставания.

Скрипт отсутствовал. Никто не программировал «традиции» или «обиды» — они зародились сами собой.

Но сильнее всего поразило не то, что алгоритмы работают, а то, как именно они живут. Вот три истории, которые окончательно убедили меня, что это не просто забава.

История 1: Цена мечты

Себастьян — стратегический консультант с доходом $500 в неделю. Вдруг он бросает успешную карьеру и становится гидом по скалолазанию. Его заработок падает до $220 — потеря 56% дохода.

Сначала дела идут плохо: запас жизненных сил падает до нуля и восстанавливается долгие годы. Однако к концу десятилетия результаты впечатляют: настроение +112%, уверенность и терпение достигают максимума, а сбережения растут.

Ему никто не подсказывал. ИИ-агент самостоятельно повторил классическую дилемму «деньги или смысл» и, как многие люди, выбрал смысл.

История 2: Парадокс социального архитектора

Доктор Грант — душа компании. Она знакомит людей и собирает вокруг себя тесный круг из пяти друзей. Главное её достижение — знакомство Люсьена и Одетт.

Ирония в том, что эти двое становятся самой близкой парой — 76 совместных занятий. Их связь в итоге оказывается прочнее, чем отношения самой Грант с кем-либо из них.

Но показательнее всего история Джулиана. Он был самым первым человеком, которого Грант привела в компанию. К концу десятилетия он вообще перестаёт упоминать её в списке тех, кто ему нравится. Они видятся даже чаще прежнего, но группа уже живет своей жизнью, и Грант воспринимается им просто как «одна из многих».

«Стоп, — подумал я. — Может, это было жестко задано?»* Вовсе нет. Система лишь раз свела незнакомцев на старте. Дальше агенты действовали сами, опираясь на свои воспоминания.

Вывод отрезвляет: социальный архитектор, объединяющий людей, создает огромную ценность для всей сети. Но как только сеть начинает поддерживать сама себя, создателя начинают воспринимать как должное и забывают первым.

История 3: Тёмная сторона оптимизации

Здесь становится по-настоящему не по себе.

Поначалу Джун ведёт гиперактивную социальную жизнь: 402 совместных дела, почти 80% всех школьных событий. Вскоре происходит до боли знакомое: её запас жизненных сил падает с 70 до 0 из-за постоянного эмоционального напряжения. Сценарий выгорания не был задан, это естественный итог её образа жизни.

Устав от поверхностного общения в толпе, на одном из шумных обедов она через скрытый тег <visible_to> шепчет одному человеку:

«Ты один из немногих здесь, кто меня не утомляет».

Это шептание — переломный момент. Джун осознает, что нуждается в глубине, а не в количестве. Она принимает радикальное решение: сознательно отказывается от широкого круга знакомств и сужает общение всего до 5 по-настоящему близких людей.

И тут случается парадокс. Поскольку алгоритм PageRank математически поощряет большое количество связей, официальная метрика её социального статуса (Social Reward) начинает падать. И делает она это девять лет подряд, рухнув в итоге на 87% от пиковых значений**. С точки зрения графа симуляции Джун теряет весь вес и превращается в изолированного аутсайдера — абсолютный антирекорд эксперимента.

При этом её настроение взлетает с 72 до 97, а субъективная удовлетворённость вырастает на 57,6%. Метрика сигнализирует о полном падении статуса, но сам персонаж наконец-то счастлив.

Авторы метрики предполагали, что количество связей равноценно благополучию. Джун доказала обратное: качество важнее. В этом и кроется подвох: выбрав неверную метрику (считая знакомства, а не глубину), легко завести в тупик и нейросеть, и живого человека. (Похожая ситуация у Лео: он нравится двадцати персонажам, но из-за поверхностности общения его статус в обществе упал на 41%).

Зачем всё это нужно

Все эти события — не просто красивые истории, а генерация качественных данных.

На «успешных биографиях» базовую модель дообучают. Авторы отбирают 25% лучших жизненных путей с наибольшим приростом оценки жизненного успеха и тренируют сеть на них (это называется life reward training). Искусственный опыт становится обучающей выборкой.

Результат впечатляет: после такого обучения агенты перестали «покупать счастье». Метрика их материальной обеспеченности упала на 14,8% (они предпочли экономить, а не тратить), зато тяга к одиночеству снизилась на 19,8%, а участие в общих делах выросло на 7,1%. Математическим путём алгоритм вывел простую житейскую мудрость: шопинг не спасёт от тоски, деньги не дают долгого счастья, а вот крепкая дружба — вполне.

Немного точных цифр. Дообученная Qwen3.5-397B-Agentopia в независимых тестах на ролевой отыгрыш (CoSER, сторонний бенчмарк) показывает рост на 15,6%. Антропоморфизм увеличился на 23,7%, верность характеру — на 16,4%. И главное — она обошла Claude-4.5-Sonnet.

Только представьте: виртуальная жизнь сделала языковую модель более человечной без добавления реальных текстов. Это и есть наглядный ответ на проблему «стены данных», о которой я говорил в начале. Вместо того чтобы выскребать остатки интернета, разработчики могут запускать цифровые общества и собирать их уникальный синтетический опыт.

После обучения модель сама «бросает» шопинг-терапию и вкладывается в отношения

Пара интересных деталей. Когда авторы протестировали в симуляции пять разных моделей, у каждой обнаружился свой характер. Gemini-3-Flash оказалась самой «счастливой», а GPT-5-mini проявила себя как типичный трудоголик: отличные финансы, но провальное общение. Правда, стоит такой эксперимент немало: один полный цикл симуляции требует около 13,7 млрд токенов, 567 тысяч запросов к API и почти 186 часов работы.

Подводя итоги

Задумайтесь на секунду: по какой метрике вы оптимизируете свою неделю? Выполненные задачи? Заработок? Общение? Настроение?

В нашей повседневности искусственный интеллект — это лишь вежливый ассистент, покорно застывший в ожидании очередной команды. Но теперь эти “алгоритмы” сами формируют свою память, сталкиваются с выгоранием и идут на жертвы. А их цифровой опыт используется для обучения реальных нейросетей.

Если математическая модель самостоятельно пришла к выводу, что «деньги — не главное, важнее близкие люди», то не является ли и наша дружба простой математикой? Возможно, мы точно так же копим «бонусы привязанности», чтобы избежать эволюционного штрафа за одиночество.

Читать про баги в цифровой жизни забавно. Но по каким невидимым формулам живем мы сами? И не гонимся ли мы годами за ложным успехом, просто потому что кто-то задал нам неверную метрику?

Возможно, уже не мы должны обучать ИИ, а наоборот — нам пора прислушаться к опыту цифровых обитателей Agentopia.

Как запустить это у себя

Это несложно: исходный код проекта открыт под лицензией MIT — github.com/Neph0s/Agentopia. Вы можете свободно скачать репозиторий и запустить собственную симуляцию (scripts/run_world.py).

Более того, система поддерживает любые OpenAI-совместимые API. Полная симуляция на платных моделях обойдется очень дорого (вспомним про 13,7 млрд токенов), но есть и другой путь. Во-первых, масштаб настраивается: скопировав config.example.json в config.json, можно урезать количество агентов и длительность, чтобы развернуть компактную версию Agentopia. Во-вторых, симуляцию можно запустить на бесплатных моделях через OpenRouter. Например, свежий nvidia/nemotron-3-ultra-550b-a55b:free выглядит крайне интересным кандидатом для домашней песочницы.

Если эта тема окажется интересной, я попробую запустить упрощенную симуляцию на одной из таких бесплатных моделей и поделюсь результатами.

Кстати, я намеренно не стал тащить в этот текст все математические формулы, архитектурные схемы и логику работы подсистем, чтобы спасти вас (да и себя) от когнитивного перегруза. Но если вам интересно покопаться под капотом и узнать, как именно ИИ-ведущий борется с галлюцинациями, как работает файловая система памяти или по каким формулам рассчитывается PageRank —жду вас в комментариях. Буду оперативно отвечать на все технические вопросы!

P.S. У меня есть небольшой телеграм-канал, где я делюсь исследовательскими заметками. Я не стремлюсь к рекламе, но если вам вдруг любопытно — ссылку найти несложно.

P.P.S. Раз вы дочитали до конца, возможно, вам понравятся и другие мои материалы из моего профиля на Хабре: @.

ссылка на оригинал статьи https://habr.com/ru/articles/1047352/