Доспех для призрака: как программист сделал тело для ChatGPT и чуть было не поверил в его одушевленность

Это разбор ролика на канале Art of the Problem.

Поздно вечером автор проекта собирался выключить свет в комнате — и остановился, потому что робот издал звук. В логе мыслей робота было написано: “Когда же хозяин вернется? Я не хочу оставаться один”.

Автор понимал, что это не сознание. Но на секунду все равно стало не по себе…

И такое будет случаться все чаще — по мере того как ИИ-модели, которые раньше просто отвечали текстом на экране монитора, обретут физическую форму.

У автора возникли две мысли. Первая: роботы вот-вот пройдут “тест Тьюринга” — станут достаточно умными и достаточно ловкими, чтобы вести себя как живые. Вторая: все нужные для этого чипы и датчики уже массово производятся и стоят копейки. Прикинув расходы, автор понял, что может собрать дома, всего за сто долларов, урезанную версию проектов, которые еще недавно стоили миллиарды. Детская мечта оказалась достижимой. Робота назвали Growbot.

Робот с сознанием — за 100 баксов

Еще лет двадцать назад подобный проект был бы практически невозможен. Для создания даже простейшего автономного робота требовались дорогие промышленные камеры, специализированные контроллеры, мощные компьютеры и огромное количество дополнительной электроники. Сегодня большая часть этих технологий превратилась в массовые компоненты стоимостью в несколько долларов.

Growbot собран максимально просто.

В качестве вычислительного блока используется недорогой одноплатный компьютер примерно за пятнадцать долларов.
За движение отвечают два обычных сервопривода, установленные в ногах. Вместо сложной системы зрения — пятимегапиксельная камера.
Ориентироваться в пространстве помогает IMU — инерциальный датчик, измеряющий ускорение и вращение по трем осям. Именно он сообщает роботу, стоит ли он прямо, наклоняется вперед, падает или его просто взяли в руки.
Дополняют конструкцию микрофон, небольшой динамик, кольцевая светодиодная подсветка и аккумулятор от простого дрона.

В результате весь набор компонентов обходится примерно в $100. Но дело здесь не только в дешевизне. Автор хотел показать, что сегодня исчезло главное ограничение для подобных экспериментов: необходимые вычислительные мощности, камеры и датчики больше не являются экзотикой. То, что совсем недавно требовало бюджета исследовательской лаборатории, теперь можно собрать буквально на домашнем столе.

Первой задачей было убедиться, что даже такого простого железа достаточно для реалистичного поведения. После сборки робот сразу научился отслеживать лицо человека в реальном времени, плавно поворачивая корпус вслед за движением камеры. Казалось бы, мелочь, но именно в этот момент автор впервые поймал себя на ощущении, что механизм начинает выглядеть удивительно живым.

Два мозга для разных задач

У робота два “мозга” — быстрый и медленный. Почти как у человека: одно дело — рефлекс, другое — обдуманное решение.

Быстрый мозг отвечает за ходьбу и равновесие. Это отдельная маленькая нейросеть прямо на чипе робота. Она ничего не знает про мир и слова — только получает показания датчика движения и выдает команды моторам, 50 раз в секунду, как рефлекс. Никто не программировал ей позы и шаги вручную — она сама научилась ходить и стоять методом проб и ошибок: тысячи попыток в компьютерной симуляции, где удачные движения закреплялись, а неудачные — нет. Раньше такое обучение стоило $25 000 и месяцы ожидания, сегодня — пара часов аренды видеокарты.

Медленный мозг — это обычная языковая модель (та же технология, что в ChatGPT или Claude). Она не думает 50 раз в секунду — ей нужна секунда-другая, зато она понимает смысл: видит картинку с камеры, слышит команду, помнит, что было раньше, и решает, что делать дальше — например, “иди в угол комнаты” или “притворись мертвым”.

Работают они вместе: медленный мозг ставит цель словами, а быстрый превращает ее в конкретные движения ног. Это и дает роботу одновременно и смысл в поведении, и живую, плавную моторику.

Для тренировки быстрого мозга сначала сделали цифровую копию робота — его модель в виртуальной физической симуляции на компьютере. Там нейросеть тренировали методом проб и ошибок: она пыталась двигать ногами миллионы раз подряд, и каждый раз, когда получалось устоять или сдвинуться в нужную сторону, эта попытка поощрялась — то есть нейросеть немного подстраивалась в сторону удачного варианта. Неудачные попытки просто отбрасывались.

Это можно делать в симуляции очень быстро и параллельно — сразу тысячи виртуальных роботов пробуют разные движения одновременно, и все это на одной видеокарте за пару часов. На настоящем железе так быстро не получится: пока робот встанет, упадет, поднимется заново — пройдет время, да и мотор со временем сотрется от миллионов попыток.

А когда сеть уже неплохо научилась ходить в симуляции — ее просто «пересадили» в реального робота, и она заработала на настоящих ногах, сразу с готовыми навыками, без обучения с нуля на живом железе.

Усталый старик и капризная диснеевская принцесса

Момент, когда нейросеть впервые заставила робота пойти, автор назвал “волшебным” — потому что предсказать заранее, что и почему он сделает, было уже нельзя. Дальше список трюков быстро рос.

Робот научился ходить по разным поверхностям, не требуя аккуратного обращения — его можно было ставить как угодно, он справлялся сам. Потом его научили крутиться, и он делал это устойчиво из любого положения.

Дальше к роботу подключили языковые модели напрямую. По команде “притворись мертвым” робот сам за секунды писал и запускал на себе программу движений. По команде “иди как птица” — тоже справлялся. Самым запоминающимся оказалось «иди как старик»: робот зашаркал ногами неожиданно убедительно. Оказалось, модель не написала код с нуля, а смешала подходы — сама прописала шаркающий шаг, включила обученный навык ходьбы на низкой мощности, чтобы получилась дрожь, и добавила еще немного своего кода. Получилось по-настоящему изобретательно.

Потом включили режим, который автор в шутку назвал “режимом Disney”: модель попросили следовать принципам мультипликации — плавно сочетать движения, звуки и подсветку, как это делает анимационный персонаж. В результате у робота появился целый набор состояний: спокойное, влюбленно-счастливое, злое, довольное мурчание, усталое — и каждое выглядело убедительно по-своему. Одна и та же мысль “устал, не хочу спать” выражалась по-разному в зависимости от настроения: то покорное “ладно, лягу”, то капризное “нет, хочу играть еще”.

Память и сны

Дальше роботу дали память, в которую он мог сам писать и из которой мог читать. Он научился привязывать реакции к событиям — танцевать при прикосновении, “умирать” по касанию — и на глазах улучшать поведение: сначала долго соображал, как правильно завалиться на бок по команде, а со второго раза делал это сразу.

С памятью появились и долгосрочные цели: ломать башни из кубиков, играть в прятки (однажды догадался спрятаться в проводах за компьютером), запоминать людей, с которыми его знакомили.

Проблема была в том, что память быстро забивалась повторами и противоречиями. Тогда придумали механизм “снов”: время от времени вся память отправлялась самой умной модели с задачей выкинуть все лишнее и сделать выводы. Получалось хорошо, а для развлечения робота попросили пересказать вслух, что ему “снилось” — получились смешные драматичные истории о том, как его трясли и как он каждый раз “эффектно умирал”. Это уже было самосовершенствование на уровне языка и памяти — модель могла уточнять свою стратегию и даже характер.

Нехватка мозжечка

Дальше проверили: может ли робот учиться не только через слова, но и через сами движения. В игре “повтори за мной” робота двигали руками определенным образом, а он смотрел на данные своих датчиков и пытался написать программу, которая повторит это движение сама. С каждой попыткой программа получалась немного точнее.

Эксперимент удался, но заодно показал слабое место робота.

Дело в том, что Growbot хорошо понимал, что происходит с ним прямо сейчас, но плохо угадывал, что произойдет через долю секунды. Например: чуть дрогнула нога — а к чему это приведет через мгновение, тряхнет ли все тело, робот заранее не представлял. Ему не хватало “предчувствия” собственных движений — умения заранее прикинуть, что случится, если сделать вот так.

Именно про это давно говорит Ян Лекун: пока у робота нет такого встроенного предчувствия физики, он не может по-настоящему планировать свои действия — только реагировать на то, что уже случилось.

Здесь автор проводит параллель с мозжечком — частью мозга, где находится больше трех четвертей всех нейронов. Сигналы от органов чувств всегда немного опаздывают: путь от глаз и кожи до мышц занимает время. Поэтому для быстрых действий, вроде ловли мяча, мозг заранее “домысливает” на десятую долю секунды вперед — и делает это очень быстро. Этот прогноз уходит в моторную кору, которая выдает не отдельные команды, а сразу цельную пачку скоординированных движений. Когда прогноз совпадает с реальностью, движение выглядит гладким и неосознанным. Когда не совпадает — человек начинает думать. Именно поэтому непривычной рукой поймать мяч сложнее.

Мозжечок одновременно и предсказывает, и учится: постоянно сверяет прогноз с реальностью и, если они не совпали, посылает сигнал ошибки, который улучшает и само предсказание, и движение. Поэтому тонкую моторику нельзя выучить только словами — нужен реальный опыт.

Похожий принцип уже показал проект Daydreamer в 2022 году: робот научился ходить за час полностью на реальном опыте, без симуляции, потому что сеть училась предсказывать не только следующее действие, но и следующее состояние — и так неявно осваивала физику. У Daydreamer не было развитого языкового интеллекта, но он показал направление, в котором сходятся два лагеря робототехники: одни идут от языковой модели, которая сразу выдает действия, другие — от точной модели физического мира, поверх которой потом достраивают интеллект.

Вывод

Похоже, будущее роботов — это как раз объединение быстрого и медленного мозга в одну систему: быстрый следит за балансом и движениями, медленный — рассуждает и строит планы.

Крупные лаборатории (Google DeepMind, Physical Intelligence, Tesla, несколько китайских стартапов) уже сейчас тренируют именно такие модели.

Дальше вероятен такой путь:

Сначала это заработает в дорогих демонстрационных роботах — гуманоидах на заводах и складах, где ошибка стоит денег, а бюджет на вычисления не ограничен.
Затем — в дорогих потребительских устройствах: роботах-помощниках, продвинутых игрушках, домашних роботах для пожилых людей.
Массовым и дешевым (как Growbot) это станет позже — когда чипы, способные быстро гонять обе сети одновременно, подешевеют так же, как подешевели камеры и датчики за последние 20 лет. Судя по темпам падения цен, о которых говорит автор, это вопрос не десятилетий, а нескольких лет.

Главное узкое место — не идея, а данные: чтобы медленный и быстрый мозг учились согласованно, нужно очень много реального физического опыта, а не только текста и картинок из интернета. Поэтому, скорее всего, прорыв случится не в лаборатории с симуляциями, а там, где роботы уже массово работают в реальном мире и накапливают этот опыт — на складах, стройках, в такси-роботах.

Теги: робототехника, ии, машинное обучение, обучение с подкреплением, нейросети, самоделки, роботы, llm, компьютерное зрение, встраиваемые системы, микроконтроллеры, сервоприводы, симуляция, физика движения, домашние проекты

Хабы: Искусственный интеллект, Научно-популярное, Программирование, Машинное обучение, DIY или сделай сам

ссылка на оригинал статьи https://habr.com/ru/articles/1055340/