Опубликовано 10 марта 2026

Фреймворк WorldCompass для обучения мировых моделей с подкреплением

Tencent научила виртуальный мир послушанию: что такое WorldCompass и зачем он нужен

Команда Hunyuan открыла доступ к WorldCompass – фреймворку на основе обучения с подкреплением, который делает интерактивные виртуальные миры точнее и стабильнее.

Исследования 4 – 6 минут чтения

Источник события: Tencent 4 – 6 минут чтения

Представьте: вы заходите в виртуальный мир, сгенерированный ИИ, нажимаете «вперёд» – и персонаж идёт куда-то вбок. Или поворачиваете камеру, а сцена начинает «плыть». Это не баг в коде, а фундаментальная проблема современных мировых моделей: они умеют генерировать красивое видео, но плохо понимают, что именно от них требуется в интерактивном режиме. Команда Hunyuan из Tencent решила заняться этой проблемой вплотную и опубликовала открытый инструмент WorldCompass, специально созданный для её решения.

Что вообще такое «мировая модель»

Если коротко: мировая модель – это ИИ, который не просто рисует картинки, а генерирует интерактивное пространство. Вы даёте ей текстовое описание или одно изображение, и она начинает создавать видеопоток – виртуальный мир, по которому можно перемещаться в реальном времени с помощью клавиатуры или мыши. Камера движется, пространство меняется, объекты остаются на своих местах – по крайней мере, в идеале.

Задача сложнее, чем кажется. Обычная видеогенерация – это создание одного красивого ролика. Мировая модель должна генерировать бесконечную последовательность кадров в ответ на действия пользователя, сохраняя при этом геометрическую согласованность: если вы отошли от стола и вернулись, он должен стоять там же, а не переместиться или изменить форму.

Проблемы стабильности и управления в генеративных мировых моделях

Проблема, которую никто толком не решал

До недавнего времени у мировых моделей была чёткая дилемма: либо скорость, либо память. Быстрые системы генерировали видео в реальном времени, но сцены теряли стабильность – мир «переписывался» при каждом новом взгляде. Системы с хорошей памятью удерживали геометрию, но работали медленно и не подходили для живого взаимодействия.

Проект HY-World 1.5 (WorldPlay), который команда Hunyuan представила ранее, стал попыткой разрешить это противоречие и в целом справился с задачей: модель генерирует видео со скоростью 24 кадра в секунду, сохраняя согласованность пространства на длинных последовательностях. Но оставалась другая сложность: даже хорошо обученная модель в интерактивном режиме периодически игнорирует команды или теряет качество изображения при сложных действиях. Она может генерировать мир, но не всегда точно слушается пользователя.

Принцип обучения WorldCompass на основе RL и оценки фрагментов видео

WorldCompass: обучение через последствия

WorldCompass – это фреймворк дообучения на основе обучения с подкреплением (RL). Проще говоря, это способ научить модель не просто «рисовать красиво», а генерировать контент правильно – в соответствии с ожиданиями пользователя.

Принцип обучения с подкреплением похож на дрессировку: модель совершает действие, получает оценку (насколько хорошо она справилась) и корректирует своё поведение. В случае с мировыми моделями это нетривиально, так как видео генерируется не целиком, а последовательно, кадр за кадром, и каждый последующий зависит от предыдущего. Ошибка в начале может накапливаться и приводить к деградации качества спустя несколько секунд.

Команда решила эту задачу несколькими способами. Вместо того чтобы оценивать целые длинные последовательности, что вычислительно дорого, разработчики ввели оценку на уровне отдельных фрагментов: модель генерирует короткие клипы, каждый из которых сразу получает балл. Это ускоряет обучение и дает более точный сигнал о том, где именно произошел сбой.

Кроме того, систему оценки разделили на две независимые части: одна следит за точностью выполнения команд движения, другая – за визуальным качеством картинки. Это важно: если бы метрика была единой, модель могла бы научиться «срезать углы» – например, жертвовать качеством изображения ради формального выполнения команды или наоборот.

Преимущества использования WorldCompass для точности и стабильности видеогенерации

Что это даёт на практике

По данным команды, после применения WorldCompass модель WorldPlay заметно улучшила точность следования командам и стабильность изображения. Это касается как коротких, так и длинных последовательностей, а также проявляется и в простых действиях (движение вперёд), и в сложных комбинациях (одновременное движение с поворотом камеры).

Важно, что WorldCompass разработан как универсальный инструмент: он не привязан к конкретной архитектуре. Авторы протестировали его на двух разных типах моделей, и в обоих случаях результаты улучшились. Это означает, что другие исследователи и разработчики смогут применить аналогичный подход к своим проектам.

Значение открытого исходного кода WorldCompass для индустрии ИИ

Открытый код – это больше, чем просто щедрость

Команда опубликовала WorldCompass в открытом доступе. Это не только возможность для сторонних специалистов воспроизвести результаты и адаптировать фреймворк под свои нужды, но и сигнал для всей индустрии: проблема обучения с подкреплением для мировых моделей перестаёт быть закрытой темой нескольких крупных лабораторий.

До сих пор большинство работ по применению RL в генеративных моделях касались статичных изображений или коротких видео. Мировые модели – это другой класс задач: здесь важна не одна удачная генерация, а устойчивое поведение в ходе длительных интерактивных сессий. WorldCompass – первый публичный фреймворк, специально адаптированный под эту специфику.

Ограничения и перспективы развития интерактивных мировых моделей

Что пока остаётся за кадром 🎬

Стоит помнить, что это именно дообучение, а не создание системы с нуля: WorldCompass улучшает уже готовую модель, но не заменяет остальные этапы её подготовки. Сами мировые модели всё ещё требуют значительных вычислительных ресурсов, и их применение пока ограничено исследовательской и профессиональной средой – запустить такой «бесконечный мир» на обычном ноутбуке пока не получится.

Остаётся открытым и вопрос о том, как эти системы справляются с физикой и логикой реальности: создавать визуально стабильные пространства – это одно, а воспроизводить причинно-следственные связи (например, что при падении стакана разливается вода) – совсем другая история. Тем не менее WorldCompass делает важный шаг к тому, чтобы мировые модели не просто выглядели, но и вели себя убедительно.

Ссылка на публикацию: https://mp.weixin.qq.com/s/yaMJG6oxw-FjWfKFK574mA

Оригинальное название: 混元世界模型再进化：开源首个面向世界模型的强化学习后训练框架WorldCompass

Дата публикации: 10 мар 2026

Tencent hunyuan.tencent.com Китайский технологический холдинг, развивающий ИИ для социальных платформ, игр, облака и цифровых сервисов.

Предыдущая статья Как обучать ИИ на текстах длиной в миллион токенов: идея, которая меняет правила игры Следующая статья Запустить ИИ – не проблема. Защитить его – уже сложнее

Фреймворк WorldCompass для обучения мировых моделей с подкреплением

Что вообще такое «мировая модель»

Проблемы стабильности и управления в генеративных мировых моделях

Принцип обучения WorldCompass на основе RL и оценки фрагментов видео

Преимущества использования WorldCompass для точности и стабильности видеогенерации

Значение открытого исходного кода WorldCompass для индустрии ИИ

Ограничения и перспективы развития интерактивных мировых моделей

Связанные публикации

Tencent Hunyuan показал, как находить проблемные места в обучении языковых моделей

Как ИИ помогает находить поломки при обучении больших моделей

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации