Опубликовано 7 февраля 2026

AMD выпустила Micro-World — открытые модели для генерации интерактивного видео

AMD выпустила открытые модели для создания интерактивного видео

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Технический контекст Продукты
Источник события: AMD Время чтения: 4 – 6 минут

AMD опубликовала Micro-World – набор моделей, которые умеют создавать видео не просто на основе текстовых запросов, но и с учетом действий пользователя. Проще говоря, это попытка научить нейросеть предсказывать, как изменится визуальное окружение, если в него вмешаться.

Главная особенность проекта в том, что это первые открытые модели такого типа, оптимизированные для работы на видеокартах AMD. Код и веса моделей находятся в свободном доступе – их можно скачать и протестировать на собственном оборудовании.

Что такое модели мира и зачем они нужны

Модель мира (world model) – это алгоритм, который пытается воссоздать логику устройства определенной среды. Это не обязательно должен быть реальный мир: объектом может выступать игра, симуляция или видеоряд. Идея заключается в том, чтобы нейросеть научилась предсказывать последствия тех или иных изменений.

Например, вы показываете модели видео с автомобилем на дороге и задаете условие: «Представь, что водитель повернул руль влево». Модель должна сгенерировать продолжение ролика, в котором машина действительно совершает маневр. Это не просто генерация картинки, а понимание причинно-следственных связей.

Такие решения критически важны для обучения ИИ-агентов. Вместо того чтобы запускать их в реальной среде (что дорого, долго и зачастую опасно), ИИ можно тренировать внутри симуляции, созданной моделью мира. Агент совершает действия, модель демонстрирует результат – так происходит постепенное обучение системы.

Возможности и функции Micro-World

Что умеет Micro-World

Micro-World состоит из нескольких моделей разного объема – от компактных до крупномасштабных. Все они работают на базе принципов диффузии: процесс начинается с визуального шума, который постепенно преобразуется в осмысленное видео, опираясь на контекст – предыдущие кадры и команды пользователя.

Модели обучались на наборах данных из видеоигр и симуляций. Благодаря этому они понимают механику движения персонажей, изменения окружения при взаимодействии и физику виртуальных миров.

В отличие от традиционных генераторов видео, которые создают ролик целиком по запросу, Micro-World реагирует на действия в режиме реального времени. Вы нажимаете кнопку – модель мгновенно генерирует следующий кадр с учетом этого ввода. Это превращает процесс скорее в интерактивную симуляцию, чем в обычный просмотр видео.

Преимущества открытого доступа к моделям AMD

Почему AMD делает акцент на открытости

Большинство крупных разработок в области моделей мира либо закрыты, либо жестко привязаны к оборудованию конкретного вендора. AMD выбирает иной путь: публикует код и веса в открытом доступе, оптимизируя их под свои графические процессоры на базе ROCm – программной платформы для работы с видеокартами компании.

Это открывает исследователям и разработчикам возможность экспериментировать с моделями, не ограничиваясь одной экосистемой. Модель можно взять за основу, доработать под специфическую задачу и дообучить на собственных данных, используя полностью открытый технологический стек.

Для AMD это также эффективный способ продемонстрировать, что их «железо» отлично подходит не только для гейминга, но и для серьезных задач машинного обучения. Платформа ROCm постепенно становится полноценной альтернативой CUDA, и подобные проекты ускоряют этот процесс.

Применение моделей мира в играх и робототехнике

Где это может пригодиться

Самый очевидный сценарий – обучение ИИ-агентов для игровой индустрии и робототехники. Вместо того чтобы моделировать физику с нуля с помощью сложных движков, можно использовать нейросеть, обученную предсказывать результат на основе реальных данных.

Другой вариант – создание интерактивных обучающих сред. Например, модель может наглядно показать, как поведет себя автомобиль в различных погодных условиях или как изменится композиция сцены при манипуляции объектами. Это крайне полезно для отладки алгоритмов управления.

Существуют и более футуристичные идеи: генерация игровых миров на лету, где окружение создается не по заранее прописанным правилам, а нейросетью, понимающей логику пространства. Пока это лишь эксперименты, но направление выглядит многообещающим.

Ограничения и проблемы Micro-World

Что остается неясным

Micro-World – это прежде всего исследовательский проект, а не коммерческий продукт. На данный момент модели работают с относительно простыми данными: играми и симуляциями с предсказуемой физикой. Насколько эффективно они справятся со сложными сценариями реального мира – вопрос открытый.

Также стоит учитывать вопрос ресурсов: интерактивная генерация видео крайне требовательна к вычислительным мощностям. Даже при наличии открытого кода запустить модель с приемлемой скоростью смогут далеко не все пользователи. Оптимизация AMD под свои GPU помогает, но не гарантирует быстродействия на любом оборудовании.

И ключевой нюанс – точность предсказаний. Если симуляция, на которой учится ИИ-агент, будет содержать ошибки или неточности, алгоритм может усвоить неверные стратегии поведения. Это классическая проблема «разрыва между симуляцией и реальностью» (sim-to-real), характерная для любого виртуального обучения.

Значение моделей мира для развития искусственного интеллекта

Почему это важно

Модели мира – это важный шаг к тому, чтобы искусственный интеллект понимал не просто отдельные объекты, а их взаимосвязи и динамику изменений. Это приближает ИИ к человеческому восприятию: мы видим реальность не как набор статичных кадров, а как непрерывный причинно-следственный процесс.

Выпуск Micro-World в открытый доступ значительно снижает порог входа для научного сообщества. Разработчикам больше не нужно ждать доступа к закрытым API или подстраиваться под чужую инфраструктуру.

Безусловно, до полноценного моделирования реальности еще далеко. Однако каждый такой проект – это важный элемент в понимании того, как научить машины познавать мир не через сухие правила, а через накопленный опыт.

Оригинальное название: Micro-World: First AMD Open-Source World Models for Interactive Video Generation – ROCm Blogs
Дата публикации: 6 фев 2026
AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Community Evals от Hugging Face: когда сообщество само решает проверять модели Следующая статья Барселонский суперкомпьютерный центр и ACAPPS создают ИИ-инструменты для людей с нарушениями слуха

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться