Опубликовано 5 марта 2026

Роботы с памятью: как долгосрочная и краткосрочная память меняет подход к управлению

Роботы, которые помнят: как долгосрочная и краткосрочная память меняет подход к управлению роботами

Исследователи из Physical Intelligence научили роботов сочетать долгосрочную и краткосрочную память, что существенно меняет их подход к решению сложных задач.

Исследования 4 – 6 минут чтения
Источник события: Physical Intelligence 4 – 6 минут чтения

Когда мы думаем о роботах с искусственным интеллектом, обычно представляем «умный автомат»: он анализирует ситуацию, принимает решение и действует. Каждое действие выглядит как начало с чистого листа. Однако у людей всё устроено иначе: мы помним, что делали минуту назад, и одновременно удерживаем в голове контекст задачи, которую выполняем уже несколько часов. Именно этот принцип исследователи из компании Physical Intelligence попытались перенести в архитектуру роботов.

Их новая работа посвящена так называемым визуально-языковым агентам действия – моделям, которые управляют роботами, опираясь на зрение и языковые инструкции. Проще говоря, робот «смотрит» на окружающий мир через камеру и «слушает» команды на естественном языке, а модель решает, что именно нужно сделать.

Проблема кратковременной памяти у роботов

Проблема, которую давно замечали, но не решали напрямую

У большинства таких систем есть фундаментальное ограничение: они работают в коротком временном окне. Модель видит последние несколько кадров, принимает решение – и всё. Что было раньше, она не знает или знает очень плохо. Это нормально, если задача проста и укладывается в несколько секунд. Но как только нужно выполнить что-то более продолжительное – например, сначала найти предмет, потом переложить его, потом что-то собрать – система начинает «путаться».

Человек в такой ситуации удерживает в голове два слоя: что происходит прямо сейчас (краткосрочная память) и что уже было сделано в рамках задачи (долгосрочная память). Именно этот двухуровневый принцип и лёг в основу новой разработки.

Два вида памяти в одной системе управления роботами

Два вида памяти – одна система

Исследователи предложили архитектуру, в которой робот работает сразу с двумя типами контекста.

Краткосрочная память – это плотный поток информации о том, что происходит прямо сейчас: видеокадры, положение манипуляторов, текущие ощущения от взаимодействия с объектами. Это высокочастотный, детальный сигнал, который быстро меняется.

Долгосрочная память – это более разреженный, но содержательный слой: что уже было сделано в ходе задачи, какие ключевые моменты произошли раньше, каков общий контекст. Этот слой обновляется реже, но позволяет системе «помнить», с чего всё начиналось и куда движется процесс.

Принципиально важно, что оба слоя обрабатываются совместно – модель видит и то, и другое одновременно, а не переключается между ними. Это позволяет принимать решения, которые учитывают как детали текущего момента, так и более широкий ход задачи.

Как реализована двойная система памяти для роботов

Почему это не так просто, как звучит

Соединить два вида памяти в одной системе – задача нетривиальная. Краткосрочный и долгосрочный контексты устроены по-разному: первый – это плотный поток с высокой частотой обновления, второй – редкие, но значимые «зарубки». Если просто склеить их вместе, модель либо начинает игнорировать долгосрочный слой как «шум», либо перегружается и теряет точность в текущих движениях.

В Physical Intelligence решили эту проблему через раздельные, но взаимосвязанные потоки обработки: краткосрочная и долгосрочная память кодируются по-разному, с различными частотами дискретизации и разными весами внимания внутри модели. Это позволяет каждому слою «говорить» на своём языке и при этом влиять на общее решение.

Эффективность роботов с двойной системой памяти

Что изменилось на практике

Результаты, которые демонстрирует команда, показательны прежде всего на длинных задачах – тех, где стандартные модели начинают ошибаться или теряют нить. Система с двойной памятью справляется с ними заметно лучше: робот не «забывает», что уже сделал, не повторяет действия, не теряет ориентацию в середине сложной последовательности.

При этом точность на коротких задачах не ухудшилась – это важный момент, потому что нередко добавление долгосрочного контекста «размывает» внимание модели и снижает качество мелкой моторики. Здесь этого удалось избежать.

Отдельно стоит отметить, что система обучалась в том числе на реальных роботизированных данных, а не только на симуляции. Это важно с точки зрения переноса: многие модели, которые хорошо работают в виртуальной среде, теряют в качестве при переносе на физического робота.

Развитие робототехники: потребность в структурированной памяти

Большой контекст: куда движется направление

Работа Physical Intelligence вписывается в более широкий тренд: исследовательское сообщество постепенно приходит к пониманию, что для сложных роботизированных задач недостаточно просто обучить большую модель на большом количестве данных. Нужна правильная структура памяти и внимания – такая, которая позволяет роботу не просто реагировать на текущий кадр, а удерживать задачу целиком.

Это особенно актуально для так называемых долгих горизонтов – задач, которые разворачиваются на протяжении минут, а не секунд. Именно здесь сосредоточена значительная часть практически полезной работы: уборка, сборка, приготовление еды, логистика на складе. Всё это требует удержания контекста во времени.

Пока большинство коммерческих роботизированных систем обходятся без такого механизма – и это видно по ограничениям: они хорошо справляются с повторяющимися короткими операциями, но теряются, когда задача становится длиннее или менее предсказуемой. Исследование Physical Intelligence – один из шагов к тому, чтобы закрыть этот разрыв.

Перспективы и ограничения систем памяти в робототехнике

Открытые вопросы

Разумеется, ни одна исследовательская работа не ставит точку. Несколько вопросов остаются открытыми.

Первый – масштабируемость. Насколько хорошо система будет работать на задачах ещё более продолжительных, чем те, что тестировались? Долгосрочная память также имеет ограниченный объём – что происходит, когда задача растягивается на час?

Второй – обобщаемость. Система обучена на конкретном наборе задач и сред. Насколько хорошо она переносится на новые ситуации, с которыми робот никогда не сталкивался? Это классическая проблема обобщения, и здесь пока нет однозначного ответа.

Третий – стоимость вычислений. Обработка двух слоёв контекста одновременно требует больше ресурсов. В исследовательском контексте это допустимо, но при переносе в реальные продукты эффективность имеет значение.

Тем не менее направление выглядит перспективным. Идея о том, что роботу нужна не просто «умная реакция», а структурированная память – понятная, обоснованная и, судя по результатам, работающая.

Ссылка на публикацию: https://www.pi.website/research/memory
Оригинальное название: VLAs with Long and Short-Term Memory
Дата публикации: 3 мар 2026
Physical Intelligence www.pi.website Американская исследовательская компания, изучающая вопросы физического интеллекта и развитие ИИ-систем в симбиозе с физическими процессами.
Предыдущая статья MiniMax Music 2.5+: теперь можно генерировать музыку без вокала Следующая статья Ориентация в пространстве: справляются ли ИИ-модели с тем, что для нас само собой разумеется?

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Новый метод позволяет автономным системам оставаться в безопасности, даже когда датчики «врут», а истинное положение робота скрыто за облаком шума и неточностей.

Доктор Ким Ли 30 янв 2026

ИИ: События

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Технический контекст Разработка

Новые ядра и математические оптимизации Unsloth сокращают требования к памяти на 35%, увеличивают скорость обучения в 12 раз и позволяют работать с контекстом, который в 6 раз длиннее исходного.

Unslothunsloth.ai 11 фев 2026

Специалисты AI21 Labs продемонстрировали, что простая оптимизация упаковки данных при обучении LLM позволяет существенно ускорить процесс без изменения архитектуры нейросети.

AI21 Labswww.ai21.com 12 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться