Alibaba представила Qwen-Robot Suite — набор AI-моделей для роботов и физических агентов

от автора

Инженеры Alibaba представили Qwen-Robot Suite — набор из трёх фундаментальных AI-моделей для роботов и агентов, которые не только понимают текст и изображения, но и могут действовать в физическом мире.

В набор вошли три модели:

Qwen-RobotNav — модель, объединяющая в себе сразу несколько навигационных сценариев: следование инструкциям, движение к заданной точке, поиск объектов, отслеживание цели и автономное вождение. Авторы описывают её как базовую модель для навигации агентских систем. Например, внешний планировщик может разбить большую задачу на серию небольших заданий и переключать режимы модели по мере выполнения.

У модели можно настроить протокол наблюдения, чтобы система в процессе меняла то, как она обрабатывает визуальный контекст. Например, можно регулировать объём токенов или вес разных камер. Инженеры обучали модель на 15,6 млн примеров и масштабировали размер от 2 до 8 млрд параметров для улучшения результата.

Qwen-RobotManip — vision-language-action-модель на базе Qwen-VL, отвечающая за физическое взаимодействие с объектами. Она решает проблему разнородности робототехнических данных, связанную с тем, что у роботов разные конструкции, датчики и способы управления.

Для решения этой проблемы в Qwen-RobotManip используют механизм выравнивания представлений, движений и поведения. Благодаря этому разработчикам должно быть проще переносить навыки между роботами. Саму модель обучали на корпусе из 38 тыс. видео, робототехнических и синтетических данных.

Qwen-RobotWorld — модель мира, которая по наблюдениям в реальном времени и текстовым инструкциям «предсказывает», как будет развиваться физическая среда. Если говорить проще, то модель генерирует будущие визуальные траектории для разных сценариев.

Все модели из набора открыты, а на официальной странице есть демонстрация их работы.

ссылка на оригинал статьи https://habr.com/ru/articles/1049306/