Когда мы думаем о роботах с искусственным интеллектом, обычно представляем «умный автомат»: он анализирует ситуацию, принимает решение и действует. Каждое действие выглядит как начало с чистого листа. Однако у людей всё устроено иначе: мы помним, что делали минуту назад, и одновременно удерживаем в голове контекст задачи, которую выполняем уже несколько часов. Именно этот принцип исследователи из компании Physical Intelligence попытались перенести в архитектуру роботов.
Их новая работа посвящена так называемым визуально-языковым агентам действия – моделям, которые управляют роботами, опираясь на зрение и языковые инструкции. Проще говоря, робот «смотрит» на окружающий мир через камеру и «слушает» команды на естественном языке, а модель решает, что именно нужно сделать.
Проблема, которую давно замечали, но не решали напрямую
У большинства таких систем есть фундаментальное ограничение: они работают в коротком временном окне. Модель видит последние несколько кадров, принимает решение – и всё. Что было раньше, она не знает или знает очень плохо. Это нормально, если задача проста и укладывается в несколько секунд. Но как только нужно выполнить что-то более продолжительное – например, сначала найти предмет, потом переложить его, потом что-то собрать – система начинает «путаться».
Человек в такой ситуации удерживает в голове два слоя: что происходит прямо сейчас (краткосрочная память) и что уже было сделано в рамках задачи (долгосрочная память). Именно этот двухуровневый принцип и лёг в основу новой разработки.
Два вида памяти – одна система
Исследователи предложили архитектуру, в которой робот работает сразу с двумя типами контекста.
Краткосрочная память – это плотный поток информации о том, что происходит прямо сейчас: видеокадры, положение манипуляторов, текущие ощущения от взаимодействия с объектами. Это высокочастотный, детальный сигнал, который быстро меняется.
Долгосрочная память – это более разреженный, но содержательный слой: что уже было сделано в ходе задачи, какие ключевые моменты произошли раньше, каков общий контекст. Этот слой обновляется реже, но позволяет системе «помнить», с чего всё начиналось и куда движется процесс.
Принципиально важно, что оба слоя обрабатываются совместно – модель видит и то, и другое одновременно, а не переключается между ними. Это позволяет принимать решения, которые учитывают как детали текущего момента, так и более широкий ход задачи.
Почему это не так просто, как звучит
Соединить два вида памяти в одной системе – задача нетривиальная. Краткосрочный и долгосрочный контексты устроены по-разному: первый – это плотный поток с высокой частотой обновления, второй – редкие, но значимые «зарубки». Если просто склеить их вместе, модель либо начинает игнорировать долгосрочный слой как «шум», либо перегружается и теряет точность в текущих движениях.
В Physical Intelligence решили эту проблему через раздельные, но взаимосвязанные потоки обработки: краткосрочная и долгосрочная память кодируются по-разному, с различными частотами дискретизации и разными весами внимания внутри модели. Это позволяет каждому слою «говорить» на своём языке и при этом влиять на общее решение.
Что изменилось на практике
Результаты, которые демонстрирует команда, показательны прежде всего на длинных задачах – тех, где стандартные модели начинают ошибаться или теряют нить. Система с двойной памятью справляется с ними заметно лучше: робот не «забывает», что уже сделал, не повторяет действия, не теряет ориентацию в середине сложной последовательности.
При этом точность на коротких задачах не ухудшилась – это важный момент, потому что нередко добавление долгосрочного контекста «размывает» внимание модели и снижает качество мелкой моторики. Здесь этого удалось избежать.
Отдельно стоит отметить, что система обучалась в том числе на реальных роботизированных данных, а не только на симуляции. Это важно с точки зрения переноса: многие модели, которые хорошо работают в виртуальной среде, теряют в качестве при переносе на физического робота.
Большой контекст: куда движется направление
Работа Physical Intelligence вписывается в более широкий тренд: исследовательское сообщество постепенно приходит к пониманию, что для сложных роботизированных задач недостаточно просто обучить большую модель на большом количестве данных. Нужна правильная структура памяти и внимания – такая, которая позволяет роботу не просто реагировать на текущий кадр, а удерживать задачу целиком.
Это особенно актуально для так называемых долгих горизонтов – задач, которые разворачиваются на протяжении минут, а не секунд. Именно здесь сосредоточена значительная часть практически полезной работы: уборка, сборка, приготовление еды, логистика на складе. Всё это требует удержания контекста во времени.
Пока большинство коммерческих роботизированных систем обходятся без такого механизма – и это видно по ограничениям: они хорошо справляются с повторяющимися короткими операциями, но теряются, когда задача становится длиннее или менее предсказуемой. Исследование Physical Intelligence – один из шагов к тому, чтобы закрыть этот разрыв.
Открытые вопросы
Разумеется, ни одна исследовательская работа не ставит точку. Несколько вопросов остаются открытыми.
Первый – масштабируемость. Насколько хорошо система будет работать на задачах ещё более продолжительных, чем те, что тестировались? Долгосрочная память также имеет ограниченный объём – что происходит, когда задача растягивается на час?
Второй – обобщаемость. Система обучена на конкретном наборе задач и сред. Насколько хорошо она переносится на новые ситуации, с которыми робот никогда не сталкивался? Это классическая проблема обобщения, и здесь пока нет однозначного ответа.
Третий – стоимость вычислений. Обработка двух слоёв контекста одновременно требует больше ресурсов. В исследовательском контексте это допустимо, но при переносе в реальные продукты эффективность имеет значение.
Тем не менее направление выглядит перспективным. Идея о том, что роботу нужна не просто «умная реакция», а структурированная память – понятная, обоснованная и, судя по результатам, работающая.