Представьте: вы заходите в виртуальный мир, сгенерированный ИИ, нажимаете «вперёд» – и персонаж идёт куда-то вбок. Или поворачиваете камеру, а сцена начинает «плыть». Это не баг в коде, а фундаментальная проблема современных мировых моделей: они умеют генерировать красивое видео, но плохо понимают, что именно от них требуется в интерактивном режиме. Команда Hunyuan из Tencent решила заняться этой проблемой вплотную и опубликовала открытый инструмент WorldCompass, специально созданный для её решения.
Если коротко: мировая модель – это ИИ, который не просто рисует картинки, а генерирует интерактивное пространство. Вы даёте ей текстовое описание или одно изображение, и она начинает создавать видеопоток – виртуальный мир, по которому можно перемещаться в реальном времени с помощью клавиатуры или мыши. Камера движется, пространство меняется, объекты остаются на своих местах – по крайней мере, в идеале.
Задача сложнее, чем кажется. Обычная видеогенерация – это создание одного красивого ролика. Мировая модель должна генерировать бесконечную последовательность кадров в ответ на действия пользователя, сохраняя при этом геометрическую согласованность: если вы отошли от стола и вернулись, он должен стоять там же, а не переместиться или изменить форму.
Проблема, которую никто толком не решал
До недавнего времени у мировых моделей была чёткая дилемма: либо скорость, либо память. Быстрые системы генерировали видео в реальном времени, но сцены теряли стабильность – мир «переписывался» при каждом новом взгляде. Системы с хорошей памятью удерживали геометрию, но работали медленно и не подходили для живого взаимодействия.
Проект HY-World 1.5 (WorldPlay), который команда Hunyuan представила ранее, стал попыткой разрешить это противоречие и в целом справился с задачей: модель генерирует видео со скоростью 24 кадра в секунду, сохраняя согласованность пространства на длинных последовательностях. Но оставалась другая сложность: даже хорошо обученная модель в интерактивном режиме периодически игнорирует команды или теряет качество изображения при сложных действиях. Она может генерировать мир, но не всегда точно слушается пользователя.
WorldCompass: обучение через последствия
WorldCompass – это фреймворк дообучения на основе обучения с подкреплением (RL). Проще говоря, это способ научить модель не просто «рисовать красиво», а генерировать контент правильно – в соответствии с ожиданиями пользователя.
Принцип обучения с подкреплением похож на дрессировку: модель совершает действие, получает оценку (насколько хорошо она справилась) и корректирует своё поведение. В случае с мировыми моделями это нетривиально, так как видео генерируется не целиком, а последовательно, кадр за кадром, и каждый последующий зависит от предыдущего. Ошибка в начале может накапливаться и приводить к деградации качества спустя несколько секунд.
Команда решила эту задачу несколькими способами. Вместо того чтобы оценивать целые длинные последовательности, что вычислительно дорого, разработчики ввели оценку на уровне отдельных фрагментов: модель генерирует короткие клипы, каждый из которых сразу получает балл. Это ускоряет обучение и дает более точный сигнал о том, где именно произошел сбой.
Кроме того, систему оценки разделили на две независимые части: одна следит за точностью выполнения команд движения, другая – за визуальным качеством картинки. Это важно: если бы метрика была единой, модель могла бы научиться «срезать углы» – например, жертвовать качеством изображения ради формального выполнения команды или наоборот.
Что это даёт на практике
По данным команды, после применения WorldCompass модель WorldPlay заметно улучшила точность следования командам и стабильность изображения. Это касается как коротких, так и длинных последовательностей, а также проявляется и в простых действиях (движение вперёд), и в сложных комбинациях (одновременное движение с поворотом камеры).
Важно, что WorldCompass разработан как универсальный инструмент: он не привязан к конкретной архитектуре. Авторы протестировали его на двух разных типах моделей, и в обоих случаях результаты улучшились. Это означает, что другие исследователи и разработчики смогут применить аналогичный подход к своим проектам.
Открытый код – это больше, чем просто щедрость
Команда опубликовала WorldCompass в открытом доступе. Это не только возможность для сторонних специалистов воспроизвести результаты и адаптировать фреймворк под свои нужды, но и сигнал для всей индустрии: проблема обучения с подкреплением для мировых моделей перестаёт быть закрытой темой нескольких крупных лабораторий.
До сих пор большинство работ по применению RL в генеративных моделях касались статичных изображений или коротких видео. Мировые модели – это другой класс задач: здесь важна не одна удачная генерация, а устойчивое поведение в ходе длительных интерактивных сессий. WorldCompass – первый публичный фреймворк, специально адаптированный под эту специфику.
Что пока остаётся за кадром 🎬
Стоит помнить, что это именно дообучение, а не создание системы с нуля: WorldCompass улучшает уже готовую модель, но не заменяет остальные этапы её подготовки. Сами мировые модели всё ещё требуют значительных вычислительных ресурсов, и их применение пока ограничено исследовательской и профессиональной средой – запустить такой «бесконечный мир» на обычном ноутбуке пока не получится.
Остаётся открытым и вопрос о том, как эти системы справляются с физикой и логикой реальности: создавать визуально стабильные пространства – это одно, а воспроизводить причинно-следственные связи (например, что при падении стакана разливается вода) – совсем другая история. Тем не менее WorldCompass делает важный шаг к тому, чтобы мировые модели не просто выглядели, но и вели себя убедительно.