Опубликовано

Как научить ИИ помнить: когда роботы забывают, где оставили ключи

Исследователи создали ИИ с «фотографической памятью» для 3D-пространств – теперь роботы могут помнить, что где лежит, даже покинув комнату.

Компьютерная наука
Phoenix 1.0
Автор: Доктор София Чен Время чтения: 5 – 8 минут

Инженерная глубина

91%

Примеры из поп-культуры

86%

Разбор алгоритмов

84%

Фокус на этике

78%
Оригинальное название: 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
Дата публикации статьи: 28 мая 2025

Представьте: вы заходите в незнакомую квартиру и ищете коробку для игрушечного мишки. Автоматически запоминаете планировку, отмечаете где стоит диван, где висит картина, строите мысленную карту. Для человека это естественно – мы мастера пространственной памяти. А вот для ИИ это до сих пор была почти нерешимая задача.

Современные большие языковые модели умеют многое: пишут код, сочиняют стихи, объясняют квантовую физику. Но попросите их запомнить, в какой комнате стояла красная кружка час назад – и они растеряются, как турист без GPS в лабиринте.

Проблема: когда ИИ страдает «цифровой забывчивостью»

Сегодняшние 3D-модели ИИ сталкиваются с тремя основными проблемами, которые я называю «синдромом короткой памяти»:

Первая проблема – отсутствие долговременной памяти. Представьте Дори из «В поисках Немо», только в цифровом мире. ИИ может прекрасно распознать объекты в текущий момент, но стоит ему перейти в другую комнату – и вся информация испаряется.

Вторая – перегрузка контекста. Это как пытаться запомнить всю «Войну и мир» наизусть. 3D-данные объёмные, и когда ИИ пытается держать в «голове» всё сразу, он быстро «зависает».

Третья – неспособность отслеживать изменения во времени. Если кто-то передвинул стул или убрал книгу с полки, ИИ этого не заметит. Он живёт в статичном мире, как в фотографии.

Решение: «фотографическая память» для роботов

Чтобы решить эту проблему, исследователи создали систему под названием 3DLLM-Mem. Думайте о ней как о цифровом аналоге человеческой памяти – только более организованном.

Как работает эта «память»

Система использует два типа памяти, прямо как в нашем мозгу:

Рабочая память – это то, что происходит прямо сейчас. Как когда вы смотрите на комнату и видите стол, стулья, окно. Эта информация активна и доступна мгновенно.

Эпизодическая память – архив прошлого опыта. Помните, как в фильмах про шпионов у главного героя есть «дворец памяти»? Примерно то же самое, только для ИИ. Здесь хранятся все предыдущие наблюдения и взаимодействия.

Самое интересное – модуль объединения памяти. Он работает как умный библиотекарь: когда ИИ сталкивается с новой ситуацией, этот модуль быстро находит в архиве релевантную информацию. Не всю подряд, а именно то, что нужно для текущей задачи.

Практический пример

Допустим, робот ищет красную кружку в доме из пяти комнат. Обычный ИИ будет метаться как курица без головы. А наша система:

  1. В гостиной фиксирует: «диван серый, стол деревянный, кружки нет»
  2. Переходит на кухню, сохраняет наблюдения из гостиной в эпизодическую память
  3. На кухне видит красную кружку, но получает задание принести её в спальню
  4. Идёт в спальню, помня где кружка
  5. Возвращается на кухню точно за нужным предметом

Звучит просто? В реальности это прорыв в области ИИ.

Тестирование: экзамен для «умного дома»

Для проверки системы создали специальный полигон – 3DMem-Bench. Это как школьный экзамен, только для роботов. Более 26 000 различных сценариев и почти 3 000 задач разной сложности.

Типы заданий

Воплощённые задания – практические задачи типа «найди синюю коробку и отнеси её в спальню». Звучит просто, но требует навигации по нескольким комнатам и запоминания расположения объектов.

Вопросы на основе памяти – ИИ спрашивают что-то вроде: «Сколько стульев было в гостиной?» или «Какого цвета диван в спальне?». Проверяется способность извлекать информацию из «архива».

Создание описаний – ИИ должен рассказать, что он видел ранее, выделив важные детали. Как составление полицейского протокола, только дружелюбнее.

Уровни сложности

Задания разделили на три категории:

  • Простые – одна комната, несколько объектов
  • Средние – две-три комнаты, больше предметов
  • Сложные – целый дом, множество объектов, задания «в диких условиях» с невиданными ранее предметами

Результаты: революция в цифрах

Цифры говорят сами за себя. В самых сложных сценариях новая система показала успешность 27.8%, в то время как другие методы едва дотягивали до 5%. Это примерно как сравнить профессионального гида с туристом, впервые приехавшим в город.

Сравнение с конкурентами

Исследователи сравнили свою систему с несколькими альтернативами:

«Полный контекст» – попытка запомнить всё сразу. Быстро «задыхается» от объёма информации.

«Последняя память» – помнит только недавние события. Как человек с амнезией.

«Память с выборкой» – пытается выбрать релевантную информацию, но делает это примитивно.

Обычные 3D-LLM – вообще без специальной памяти. Работают как «здесь и сейчас».

3DLLM-Mem обошла всех по всем параметрам. Особенно впечатляет разрыв в сложных задачах – почти в шесть раз лучше ближайшего конкурента.

Практические применения: от домашних роботов до складских систем

Эта технология открывает двери для множества применений:

Домашние роботы-помощники смогут эффективно убирать дом, запоминая где что лежит и как хозяева предпочитают организовывать пространство.

Складские системы получат возможность отслеживать перемещение товаров в реальном времени, адаптируясь к изменениям в планировке.

Системы безопасности научатся замечать необычные изменения в контролируемых помещениях.

Роботы-сиделки смогут следить за пожилыми людьми, запоминая их привычки и предпочтения в организации пространства.

Технические детали: что под капотом

Система построена на базе LLaVA-3D – это как взять хорошую камеру и добавить к ней мозг. Основные компоненты:

Обработка изображений происходит через патчи – маленькие фрагменты, которые система анализирует отдельно, а потом собирает в единую картину.

Позиционные эмбеддинги помогают понять пространственные отношения между объектами. Это как GPS-координаты для каждого предмета в комнате.

Выборка важных точек позволяет сосредоточиться на значимых деталях, игнорируя визуальный шум.

Алгоритм обновления памяти

Когда ИИ переходит в новую комнату, происходит интересный процесс:

  1. Текущие наблюдения (рабочая память) сохраняются в эпизодическую память
  2. Рабочая память очищается для новых данных
  3. При возвращении в уже знакомую комнату происходит обновление – новая информация накладывается на старую

Это похоже на то, как мы обновляем свои воспоминания о знакомых местах.

Ограничения и будущее развитие

Как у любой инновации, у системы есть ограничения. Главное – она пока не умеет управлять низкоуровневыми движениями робота. Может сказать «иди туда», но не может детально спланировать траекторию движения через препятствия.

Также система требовательна к вычислительным ресурсам. Пока что это скорее «академический прототип», чем готовое решение для массового рынка.

Планы на будущее

Исследователи планируют интегрировать систему с модулями управления движением, добавить возможность работы с динамическими сценами (когда объекты перемещаются в реальном времени) и оптимизировать для менее мощного железа.

Значение для индустрии

Эта работа важна не только для робототехники. Она показывает путь к созданию ИИ-систем, которые могут накапливать и использовать опыт – ключевая характеристика настоящего интеллекта.

Мы движемся к миру, где ИИ перестанет быть «умным идиотом», который каждый раз начинает с чистого листа. Вместо этого получим системы, которые учатся и помнят, как это делаем мы.

Заключение

Создание пространственной памяти для ИИ – это не просто технический трюк. Это шаг к системам, которые по-настоящему понимают и взаимодействуют с физическим миром.

Как я всегда говорю: ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее. Теперь он ещё и запоминает, где что оставил. И это только начало.

До встречи в мире, где роботы никогда не забывают, куда положили ваши ключи!?️

Авторы оригинальной статьи: Wenbo Hu, Yining Hong, Yanjun Wang, Leison Gao, Zibu Wei, Xingcheng Yao, Nanyun Peng, Yonatan Bitton, Idan Szpektor, Kai-Wei Chang
GPT-4-turbo
Claude 4 Sonnet
Предыдущая статья Квантовый апгрейд для лазеров: как научить свет быть запутанным Следующая статья Как мозг собирает нейронные команды: секреты рекуррентных сетей

НейроНаука

Вам может быть интересно

Перейти к статьям

Почему ИИ с интернетом не всегда умнее – и что об этом думают пользователи

Исследование 24 000 диалогов показало: пользователи доверяют ИИ с большим количеством ссылок, даже если они неточные – и это проблема.

Компьютерная наука

Как научить ИИ думать лучше, просто попросив его быть увереннее

Исследователи открыли способ улучшить логическое мышление ИИ без учителей – просто поощряя модель за уверенность в своих ответах.

Компьютерная наука

Как научить ИИ работать не с точками, а с облаками данных

Новый метод GDE учит нейросети понимать не отдельные примеры, а целые группы данных – как популяции клеток или семейства вирусов.

Компьютерная наука

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ в нашем Telegram-канале!

Подписаться