Опубликовано 7 февраля 2026

AMD выпустила Micro-World — открытые модели для генерации интерактивного видео

AMD выпустила открытые модели для создания интерактивного видео

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Продукты / Технический контекст 4 – 6 минут чтения
Источник события: AMD 4 – 6 минут чтения

AMD опубликовала Micro-World – набор моделей, которые умеют создавать видео не просто на основе текстовых запросов, но и с учетом действий пользователя. Проще говоря, это попытка научить нейросеть предсказывать, как изменится визуальное окружение, если в него вмешаться.

Главная особенность проекта в том, что это первые открытые модели такого типа, оптимизированные для работы на видеокартах AMD. Код и веса моделей находятся в свободном доступе – их можно скачать и протестировать на собственном оборудовании.

Что такое модели мира и зачем они нужны

Модель мира (world model) – это алгоритм, который пытается воссоздать логику устройства определенной среды. Это не обязательно должен быть реальный мир: объектом может выступать игра, симуляция или видеоряд. Идея заключается в том, чтобы нейросеть научилась предсказывать последствия тех или иных изменений.

Например, вы показываете модели видео с автомобилем на дороге и задаете условие: «Представь, что водитель повернул руль влево». Модель должна сгенерировать продолжение ролика, в котором машина действительно совершает маневр. Это не просто генерация картинки, а понимание причинно-следственных связей.

Такие решения критически важны для обучения ИИ-агентов. Вместо того чтобы запускать их в реальной среде (что дорого, долго и зачастую опасно), ИИ можно тренировать внутри симуляции, созданной моделью мира. Агент совершает действия, модель демонстрирует результат – так происходит постепенное обучение системы.

Возможности и функции Micro-World

Что умеет Micro-World

Micro-World состоит из нескольких моделей разного объема – от компактных до крупномасштабных. Все они работают на базе принципов диффузии: процесс начинается с визуального шума, который постепенно преобразуется в осмысленное видео, опираясь на контекст – предыдущие кадры и команды пользователя.

Модели обучались на наборах данных из видеоигр и симуляций. Благодаря этому они понимают механику движения персонажей, изменения окружения при взаимодействии и физику виртуальных миров.

В отличие от традиционных генераторов видео, которые создают ролик целиком по запросу, Micro-World реагирует на действия в режиме реального времени. Вы нажимаете кнопку – модель мгновенно генерирует следующий кадр с учетом этого ввода. Это превращает процесс скорее в интерактивную симуляцию, чем в обычный просмотр видео.

Преимущества открытого доступа к моделям AMD

Почему AMD делает акцент на открытости

Большинство крупных разработок в области моделей мира либо закрыты, либо жестко привязаны к оборудованию конкретного вендора. AMD выбирает иной путь: публикует код и веса в открытом доступе, оптимизируя их под свои графические процессоры на базе ROCm – программной платформы для работы с видеокартами компании.

Это открывает исследователям и разработчикам возможность экспериментировать с моделями, не ограничиваясь одной экосистемой. Модель можно взять за основу, доработать под специфическую задачу и дообучить на собственных данных, используя полностью открытый технологический стек.

Для AMD это также эффективный способ продемонстрировать, что их «железо» отлично подходит не только для гейминга, но и для серьезных задач машинного обучения. Платформа ROCm постепенно становится полноценной альтернативой CUDA, и подобные проекты ускоряют этот процесс.

Применение моделей мира в играх и робототехнике

Где это может пригодиться

Самый очевидный сценарий – обучение ИИ-агентов для игровой индустрии и робототехники. Вместо того чтобы моделировать физику с нуля с помощью сложных движков, можно использовать нейросеть, обученную предсказывать результат на основе реальных данных.

Другой вариант – создание интерактивных обучающих сред. Например, модель может наглядно показать, как поведет себя автомобиль в различных погодных условиях или как изменится композиция сцены при манипуляции объектами. Это крайне полезно для отладки алгоритмов управления.

Существуют и более футуристичные идеи: генерация игровых миров на лету, где окружение создается не по заранее прописанным правилам, а нейросетью, понимающей логику пространства. Пока это лишь эксперименты, но направление выглядит многообещающим.

Ограничения и проблемы Micro-World

Что остается неясным

Micro-World – это прежде всего исследовательский проект, а не коммерческий продукт. На данный момент модели работают с относительно простыми данными: играми и симуляциями с предсказуемой физикой. Насколько эффективно они справятся со сложными сценариями реального мира – вопрос открытый.

Также стоит учитывать вопрос ресурсов: интерактивная генерация видео крайне требовательна к вычислительным мощностям. Даже при наличии открытого кода запустить модель с приемлемой скоростью смогут далеко не все пользователи. Оптимизация AMD под свои GPU помогает, но не гарантирует быстродействия на любом оборудовании.

И ключевой нюанс – точность предсказаний. Если симуляция, на которой учится ИИ-агент, будет содержать ошибки или неточности, алгоритм может усвоить неверные стратегии поведения. Это классическая проблема «разрыва между симуляцией и реальностью» (sim-to-real), характерная для любого виртуального обучения.

Значение моделей мира для развития искусственного интеллекта

Почему это важно

Модели мира – это важный шаг к тому, чтобы искусственный интеллект понимал не просто отдельные объекты, а их взаимосвязи и динамику изменений. Это приближает ИИ к человеческому восприятию: мы видим реальность не как набор статичных кадров, а как непрерывный причинно-следственный процесс.

Выпуск Micro-World в открытый доступ значительно снижает порог входа для научного сообщества. Разработчикам больше не нужно ждать доступа к закрытым API или подстраиваться под чужую инфраструктуру.

Безусловно, до полноценного моделирования реальности еще далеко. Однако каждый такой проект – это важный элемент в понимании того, как научить машины познавать мир не через сухие правила, а через накопленный опыт.

Оригинальное название: Micro-World: First AMD Open-Source World Models for Interactive Video Generation – ROCm Blogs
Дата публикации: 6 фев 2026
AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Community Evals от Hugging Face: когда сообщество само решает проверять модели Следующая статья Барселонский суперкомпьютерный центр и ACAPPS создают ИИ-инструменты для людей с нарушениями слуха

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться