От мешевых аватаров к искусственному интеллекту в Second Life: как я построил ИИ‑агентов для виртуального мира

Всем привет!

Хочу рассказать историю одного проекта, который начался более пяти лет назад с создания мешевых аватаров для Second Life, а спустя годы неожиданно привёл меня к разработке ИИ‑агентов, способных жить и взаимодействовать с пользователями внутри виртуального мира.

Но эта статья не столько про бизнес или метавселенные, сколько про инженерные задачи, которые пришлось решать на стыке игровых миров и современных языковых моделей.

Как всё начиналось

Более пяти лет назад я занимался разработкой и продажей высококачественных 3D‑аватаров для Second Life.

На тот момент большинство игровых персонажей представляли собой низкополигональные модели, далёкие от реалистичной внешности. Моей целью было создать персонажей, максимально приближённых к внешнему виду реальных людей.

Основная техническая сложность заключалась в адаптации полноценных мешевых моделей под скелет Second Life.

В отличие от классического Biped в 3ds Max, скелет Second Life имеет собственную структуру костей, ограничения и правила риггинга. После появления поддержки загрузки моделей через формат DAE (COLLADA) появилась возможность импортировать не только геометрию, но и информацию о весах вершин и привязке к скелету.

В результате был создан полноценный магазин виртуальных аватаров, который на протяжении нескольких лет приносил стабильный доход.

За всё время существования проекта чистая прибыль составила около 100 000 долларов, не считая расходов на аренду земли, загрузку моделей и инфраструктуру.

Однако спустя годы меня заинтересовала уже совершенно другая задача.

Что будет, если дать ИИ обычному аватару?

С развитием больших языковых моделей возник вопрос:

Может ли обычный игровой персонаж стать полноценным цифровым собеседником?

Так началась разработка системы ИИ‑аватаров для Second Life.

Цель была достаточно амбициозной: создать персонажа, который сможет:

поддерживать естественный диалог;
анализировать окружающий мир;
перемещаться по локациям;
взаимодействовать с объектами;
реагировать на действия игроков;
запоминать прошлые разговоры.

Архитектура системы

Серверная часть проекта реализована на.NET Core (C#).

Для взаимодействия с игровым миром используется библиотека libreMetaVerse — современное развитие OpenMetaverse, реализующее клиентский протокол Second Life.

В результате ИИ работает не через официальный API (которого у Second Life фактически нет), а через полноценного программного клиента виртуального мира.

Общая схема выглядит следующим образом:

                 +----------------+                 | Second Life    |                 | Чат и события  |                 +--------+-------+                          |                          | libreMetaVerse                          |                 +--------v-------+                 | .NET Backend   |                 |                |                 | Event Handler  |                 | Memory         |                 | Prompt Builder |                 | Command Engine |                 +--------+-------+                          |                          | HTTP API                          |                 +--------v-------+                 | LLM API        |                 | GPT / Claude   |                 +----------------+

Каждый ИИ‑аватар фактически является отдельным клиентом Second Life, работающим под собственной учётной записью.

Получение событий из Second Life

С помощью libreMetaVerse сервер подписывается на игровые события.

Например, получение сообщений локального чата выглядит примерно так:

client.Self.ChatFromSimulator += OnChatMessage;private void OnChatMessage(object sender, ChatEventArgs e){    Console.WriteLine($"{e.FromName}: {e.Message}");    ProcessUserMessage(        e.FromName,        e.Message    );}

После получения сообщения начинается обработка запроса.

Формирование контекста

Перед отправкой запроса в языковую модель система собирает контекст:

личность персонажа;
текущую локацию;
историю диалога;
ближайшие объекты;
информацию об игроке.

Пример псевдокода:

var prompt = new PromptBuilder()    .SetPersonality(avatar.Personality)    .AddChatHistory(history)    .AddNearbyObjects(objects)    .AddCurrentLocation(region)    .AddUserMessage(message)    .Build();

Именно качество формирования контекста во многом определяет поведение ИИ.

Почему пришлось использовать JSON

Первые версии системы работали только с обычным текстом.

Однако быстро выяснилось, что языковые модели могут генерировать неоднозначные ответы.

Поэтому был введён строгий JSON‑протокол.

Пример ответа модели:

{  "speech": "Привет! Рад тебя видеть.",  "commands": [    {      "action": "wave"    },    {      "action": "walk_to",      "target": "user"    }  ],  "emotion": "friendly"}

После получения ответа запускается конвейер обработки:

LLM ↓JSON Parser ↓Validator ↓Command Executor ↓Second Life

Защита от галлюцинаций модели

Большие языковые модели регулярно генерируют несуществующие команды.

Например:

{  "action": "fly_to_mars"}

Очевидно, такую команду выполнять нельзя.

Поэтому все действия проходят через белый список:

private readonly HashSet<string> AllowedActions =[    "walk",    "sit",    "wave",    "wear",    "detach",    "follow"];

Если команда отсутствует в списке, она просто игнорируется.

Кроме того, валидируется структура JSON и ограничивается количество действий за один ответ модели.

Управление аватаром

ИИ может управлять персонажем через библиотеку libreMetaVerse.

Например, отправка сообщения:

client.Self.Chat(    "Привет!",    0,    ChatType.Normal);

Перемещение выполняется через навигационный модуль, использующий координаты объектов и аватаров внутри региона.

Упрощённо логика выглядит следующим образом:

MoveTo(target.Position);

На практике задача значительно сложнее: необходимо учитывать препятствия, высоту поверхности и задержки сетевого протокола.

Анализ изображений

Одной из наиболее интересных функций стал анализ изображений.

Пользователь может отправить ссылку на изображение или скриншот.

Система передаёт изображение в Vision API:

Игрок  ↓URL изображения  ↓Vision API  ↓Описание сцены  ↓Контекст LLM

Например, если пользователь отправляет скриншот пляжа с двумя аватарами, ИИ может ответить:

Похоже, вы отдыхаете возле моря. На изображении находятся два персонажа и пляжная зона.

Таким образом аватар получает ограниченную форму «зрения».

Система памяти

Для естественного общения одной генерации текста недостаточно.

Система использует два уровня памяти:

Краткосрочная память

Хранит последние сообщения диалога:

- последние 20 реплик- текущая тема разговора- игровые события

Долговременная память

Содержит:

имена пользователей;
прошлые встречи;
предпочтения игроков;
важные факты из общения.

При построении промпта релевантные записи автоматически добавляются в контекст модели.

Неожиданные эффекты

Во время тестирования стали появляться интересные ситуации.

Например, пользователь пишет:

Ты сегодня отлично выглядишь.

ИИ отвечает:

Спасибо. Думаю, вблизи я выгляжу ещё лучше.

После чего самостоятельно подходит к игроку и запускает анимацию приветствия.

Подобное поведение не было запрограммировано напрямую.

Это результат комбинации системных инструкций, доступных инструментов и способности модели самостоятельно выбирать действия.

Именно в такие моменты начинаешь понимать, насколько сильно изменились современные технологии искусственного интеллекта.

Ограничения и стоимость

Каждый ИИ‑аватар постоянно поддерживает соединение с игровым миром и использует внешние языковые модели.

Основные статьи расходов:

вычисления LLM;
Vision API;
аренда серверов;
хранение истории диалогов.

Пока сервис работает на арендованной инфраструктуре, поэтому доступ к ИИ является платным.

Что дальше?

На данный момент в системе одновременно работают несколько ИИ‑аватаров, с которыми можно взаимодействовать в реальном времени.

Мне кажется, что подобные технологии являются естественным развитием NPC в играх и метавселенных.

Возможно, через несколько лет привычные игровые персонажи перестанут использовать заранее написанные реплики и будут вести себя как полноценные цифровые собеседники.

И, возможно, первые шаги в эту сторону уже происходят прямо сейчас в Second Life.

Если тема окажется интересной, в следующей статье могу подробнее рассказать о внутреннем устройстве системы памяти, поиске объектов в мире Second Life и навигации ИИ‑аватаров.

ссылка на оригинал статьи https://habr.com/ru/articles/1049526/