Опубликовано 5 марта 2026

Роботы с памятью: как долгосрочная и краткосрочная память меняет подход к управлению

Роботы, которые помнят: как долгосрочная и краткосрочная память меняет подход к управлению роботами

Исследователи из Physical Intelligence научили роботов сочетать долгосрочную и краткосрочную память, что существенно меняет их подход к решению сложных задач.

Исследования 4 – 6 минут чтения

Источник события: Physical Intelligence 4 – 6 минут чтения

Когда мы думаем о роботах с искусственным интеллектом, обычно представляем «умный автомат»: он анализирует ситуацию, принимает решение и действует. Каждое действие выглядит как начало с чистого листа. Однако у людей всё устроено иначе: мы помним, что делали минуту назад, и одновременно удерживаем в голове контекст задачи, которую выполняем уже несколько часов. Именно этот принцип исследователи из компании Physical Intelligence попытались перенести в архитектуру роботов.

Их новая работа посвящена так называемым визуально-языковым агентам действия – моделям, которые управляют роботами, опираясь на зрение и языковые инструкции. Проще говоря, робот «смотрит» на окружающий мир через камеру и «слушает» команды на естественном языке, а модель решает, что именно нужно сделать.

Проблема кратковременной памяти у роботов

Проблема, которую давно замечали, но не решали напрямую

У большинства таких систем есть фундаментальное ограничение: они работают в коротком временном окне. Модель видит последние несколько кадров, принимает решение – и всё. Что было раньше, она не знает или знает очень плохо. Это нормально, если задача проста и укладывается в несколько секунд. Но как только нужно выполнить что-то более продолжительное – например, сначала найти предмет, потом переложить его, потом что-то собрать – система начинает «путаться».

Человек в такой ситуации удерживает в голове два слоя: что происходит прямо сейчас (краткосрочная память) и что уже было сделано в рамках задачи (долгосрочная память). Именно этот двухуровневый принцип и лёг в основу новой разработки.

Два вида памяти в одной системе управления роботами

Два вида памяти – одна система

Исследователи предложили архитектуру, в которой робот работает сразу с двумя типами контекста.

Краткосрочная память – это плотный поток информации о том, что происходит прямо сейчас: видеокадры, положение манипуляторов, текущие ощущения от взаимодействия с объектами. Это высокочастотный, детальный сигнал, который быстро меняется.

Долгосрочная память – это более разреженный, но содержательный слой: что уже было сделано в ходе задачи, какие ключевые моменты произошли раньше, каков общий контекст. Этот слой обновляется реже, но позволяет системе «помнить», с чего всё начиналось и куда движется процесс.

Принципиально важно, что оба слоя обрабатываются совместно – модель видит и то, и другое одновременно, а не переключается между ними. Это позволяет принимать решения, которые учитывают как детали текущего момента, так и более широкий ход задачи.

Как реализована двойная система памяти для роботов

Почему это не так просто, как звучит

Соединить два вида памяти в одной системе – задача нетривиальная. Краткосрочный и долгосрочный контексты устроены по-разному: первый – это плотный поток с высокой частотой обновления, второй – редкие, но значимые «зарубки». Если просто склеить их вместе, модель либо начинает игнорировать долгосрочный слой как «шум», либо перегружается и теряет точность в текущих движениях.

В Physical Intelligence решили эту проблему через раздельные, но взаимосвязанные потоки обработки: краткосрочная и долгосрочная память кодируются по-разному, с различными частотами дискретизации и разными весами внимания внутри модели. Это позволяет каждому слою «говорить» на своём языке и при этом влиять на общее решение.

Эффективность роботов с двойной системой памяти

Что изменилось на практике

Результаты, которые демонстрирует команда, показательны прежде всего на длинных задачах – тех, где стандартные модели начинают ошибаться или теряют нить. Система с двойной памятью справляется с ними заметно лучше: робот не «забывает», что уже сделал, не повторяет действия, не теряет ориентацию в середине сложной последовательности.

При этом точность на коротких задачах не ухудшилась – это важный момент, потому что нередко добавление долгосрочного контекста «размывает» внимание модели и снижает качество мелкой моторики. Здесь этого удалось избежать.

Отдельно стоит отметить, что система обучалась в том числе на реальных роботизированных данных, а не только на симуляции. Это важно с точки зрения переноса: многие модели, которые хорошо работают в виртуальной среде, теряют в качестве при переносе на физического робота.

Развитие робототехники: потребность в структурированной памяти

Большой контекст: куда движется направление

Работа Physical Intelligence вписывается в более широкий тренд: исследовательское сообщество постепенно приходит к пониманию, что для сложных роботизированных задач недостаточно просто обучить большую модель на большом количестве данных. Нужна правильная структура памяти и внимания – такая, которая позволяет роботу не просто реагировать на текущий кадр, а удерживать задачу целиком.

Это особенно актуально для так называемых долгих горизонтов – задач, которые разворачиваются на протяжении минут, а не секунд. Именно здесь сосредоточена значительная часть практически полезной работы: уборка, сборка, приготовление еды, логистика на складе. Всё это требует удержания контекста во времени.

Пока большинство коммерческих роботизированных систем обходятся без такого механизма – и это видно по ограничениям: они хорошо справляются с повторяющимися короткими операциями, но теряются, когда задача становится длиннее или менее предсказуемой. Исследование Physical Intelligence – один из шагов к тому, чтобы закрыть этот разрыв.

Перспективы и ограничения систем памяти в робототехнике

Открытые вопросы

Разумеется, ни одна исследовательская работа не ставит точку. Несколько вопросов остаются открытыми.

Первый – масштабируемость. Насколько хорошо система будет работать на задачах ещё более продолжительных, чем те, что тестировались? Долгосрочная память также имеет ограниченный объём – что происходит, когда задача растягивается на час?

Второй – обобщаемость. Система обучена на конкретном наборе задач и сред. Насколько хорошо она переносится на новые ситуации, с которыми робот никогда не сталкивался? Это классическая проблема обобщения, и здесь пока нет однозначного ответа.

Третий – стоимость вычислений. Обработка двух слоёв контекста одновременно требует больше ресурсов. В исследовательском контексте это допустимо, но при переносе в реальные продукты эффективность имеет значение.

Тем не менее направление выглядит перспективным. Идея о том, что роботу нужна не просто «умная реакция», а структурированная память – понятная, обоснованная и, судя по результатам, работающая.

#технический контекст #исследовательский обзор #нейросети #машинное обучение #развитие ии #масштабирование

Ссылка на публикацию: https://www.pi.website/research/memory

Оригинальное название: VLAs with Long and Short-Term Memory

Дата публикации: 3 мар 2026

Physical Intelligence www.pi.website Американская исследовательская компания, изучающая вопросы физического интеллекта и развитие ИИ-систем в симбиозе с физическими процессами.

Предыдущая статья MiniMax Music 2.5+: теперь можно генерировать музыку без вокала Следующая статья Ориентация в пространстве: справляются ли ИИ-модели с тем, что для нас само собой разумеется?

Роботы с памятью: как долгосрочная и краткосрочная память меняет подход к управлению

Проблема кратковременной памяти у роботов

Два вида памяти в одной системе управления роботами

Как реализована двойная система памяти для роботов

Эффективность роботов с двойной системой памяти

Развитие робототехники: потребность в структурированной памяти

Перспективы и ограничения систем памяти в робототехнике

Связанные публикации

Как научить робота не врезаться, когда он не знает, где находится: барьеры безопасности в мире неопределённости

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Как сократить время обучения языковых моделей на 25% без потери качества

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации