Представьте, что вы оказались в незнакомом здании и вам нужно найти выход. Вы не знаете плана этажа, но методично исследуете коридоры: заглядываете в проходы, запоминаете, где уже были, строите в голове приблизительную карту. Это кажется несложным – почти автоматическим. Но именно эта задача оказалась серьёзным испытанием для современных ИИ-систем.
Исследователи из Стэнфорда разработали специальный тест под названием Theory of Space и проверили на нём шесть ведущих ИИ-моделей. Результаты показали: то, что человек делает почти не задумываясь, для ИИ представляет принципиальную сложность.
Что вообще проверяли?
Суть задания выглядит так: модель помещается в виртуальное пространство и должна его активно исследовать – двигаться, замечать новые детали, обновлять своё понимание того, как это пространство устроено. А затем использовать накопленные знания для принятия решений: куда идти дальше, где что находится, как попасть из одной точки в другую.
Проще говоря, модель должна не просто воспринимать пространство, а строить его внутреннюю модель по ходу исследования – и при необходимости эту модель пересматривать, если новая информация меняет картину.
Это и есть то, что исследователи называют «пространственными убеждениями» (spatial beliefs) – динамическим, обновляемым представлением о том, как устроена среда вокруг. Не статичная карта, которую дали заранее, а знание, которое нужно самостоятельно выстроить в процессе.
Три проблемы, которые нашли у всех
Ни одна из шести протестированных моделей не справилась с задачей уверенно. Более того, у всех обнаружились схожие системные слабости.
Первое: модели плохо исследуют
Оказалось, что ИИ-системы не умеют толком планировать исследование пространства. Вместо того чтобы методично обходить незнакомую среду – как это сделал бы человек, – они совершают хаотичные или неэффективные действия. Исследователи назвали это «узким местом исследования» (exploration bottleneck): модель не понимает, куда и зачем двигаться, чтобы узнать что-то новое.
Это критично, потому что без грамотного исследования невозможно собрать достаточно информации для построения точного представления о пространстве.
Второе: текст и изображения существуют в параллельных мирах
Современные мощные модели умеют работать и с текстом, и с изображениями. Казалось бы, это должно помогать в задачах о пространстве: смотришь на картинку – понимаешь, где находишься. Но на практике всё оказалось сложнее.
Исследование выявило устойчивый разрыв между двумя режимами работы: когда пространство описывается словами и когда оно показывается визуально. Модели гораздо хуже справляются с визуальными сценариями, чем с текстовыми описаниями тех же ситуаций. То, что в тексте модель понимает более-менее нормально, в виде картинки или визуальной сцены вызывает заметные затруднения.
Проще говоря, «видеть» и «понимать пространство» – для этих моделей пока разные вещи.
Третье: однажды сформированное мнение меняется с трудом
Это, пожалуй, самая неожиданная находка. Модели демонстрируют то, что исследователи называют «инерцией убеждений» (belief inertia): сформировав некое представление о пространстве, они с трудом его пересматривают – даже когда новые данные явно указывают на то, что предыдущее понимание было ошибочным.
Это похоже на человека, который составил себе мнение о маршруте, а потом, уткнувшись в закрытую дверь, продолжает убеждать себя, что именно здесь должен быть выход – вместо того чтобы пересмотреть маршрут. У людей такое бывает, но редко. У ИИ-моделей это оказалось устойчивой закономерностью.
Почему это вообще важно?
Задача ориентации в пространстве может казаться узкоспециализированной – ну мало ли, не умеет модель по виртуальным комнатам ходить. Но на самом деле речь идёт о куда более фундаментальной способности.
Пространственное мышление – это не только про карты и навигацию. Это про умение строить динамическую модель реальности: обновлять свои представления по мере поступления новой информации, понимать, чего ты ещё не знаешь, и целенаправленно это выяснять. Именно эти навыки нужны, например, роботу, который должен работать в реальном мире, или ИИ-ассистенту, который решает многошаговые задачи в меняющихся условиях.
Если модель не умеет пересматривать своё понимание ситуации на основе новых наблюдений – это проблема далеко за пределами пространственных задач. Это вопрос о том, насколько ИИ способен адаптироваться к реальности, а не только отвечать на вопросы по заранее известному контексту.
Чем Theory of Space отличается от обычных тестов?
Большинство существующих тестов для ИИ устроены по принципу «дали задание – получили ответ». Вся нужная информация присутствует в запросе. Модели не нужно ничего искать, исследовать или уточнять – нужно просто правильно обработать то, что есть.
Theory of Space устроен принципиально иначе. Здесь модель должна сама решать, какие действия предпринять, чтобы получить нужную информацию. Это называется активным исследованием – и именно оно отличает «понимание» от «воспроизведения паттернов».
Такой подход ближе к тому, как работает реальный интеллект. Мы не получаем весь контекст заранее – мы его собираем, и часто на ходу. И если ИИ-система должна работать в реальном мире, а не только в условиях контролируемых тестов, именно эта способность становится ключевой.
Что это означает для индустрии?
Результаты исследования не означают, что современные ИИ-модели плохи в целом. Они означают, что у них есть конкретный, хорошо измеримый пробел – и теперь у него есть имя и методика измерения.
Наличие чёткого бенчмарка – это уже полезно само по себе. Индустрия давно ищет способы понять, что именно умеют и чего не умеют большие модели, за пределами стандартных задач вроде генерации текста или ответов на вопросы. Theory of Space даёт один из таких инструментов.
Для тех, кто занимается разработкой автономных систем, роботов или ИИ-агентов, способных действовать в реальном мире, – это исследование указывает на конкретные направления, которые пока остаются нерешёнными: гибкое обновление знаний, умение планировать исследование и работа с визуальной информацией в динамичном контексте.
Вопросы, которые пока открыты
Исследование честно фиксирует проблемы, но не предлагает готовых решений – и это нормально для подобного рода работ. Понять, где именно пробел, часто важнее, чем сразу его закрыть.
Остаётся неясным, насколько выявленные слабости связаны с архитектурными ограничениями самих моделей, а насколько – с тем, как их обучали. Возможно, часть проблем решается дообучением на задачах активного исследования. Возможно, потребуются более глубокие изменения в том, как модели вообще работают с накопленным контекстом.
Отдельный открытый вопрос – перенос этих выводов на реальные сценарии. Тест работает в виртуальной среде, и насколько точно он отражает поведение моделей в более сложных, физических или смешанных условиях – предстоит выяснить.
Но то, что такие вопросы теперь можно задавать с опорой на конкретные данные, – уже шаг вперёд.