Опубликовано

Nitro-AR: компактный трансформер для генерации изображений

AMD представила Nitro-AR – авторегрессионную модель, которая генерирует изображения быстрее диффузионных аналогов и занимает меньше места в памяти.

Технический контекст Продукты
Источник события: AMD Время чтения: 2 – 3 минуты

В генерации изображений сейчас соревнуются два подхода: диффузионные модели и авторегрессионные. Первые постепенно убирают шум из картинки, вторые собирают её по частям, как пазл – токен за токеном. AMD решила усилить второй вариант и выпустила Nitro-AR, компактный трансформер, который работает быстрее и легче многих конкурентов.

Что такое авторегрессионная генерация

Авторегрессионные модели работают так: они предсказывают следующий элемент изображения, опираясь на всё, что уже сгенерировали. Это похоже на то, как языковые модели пишут текст – слово за словом. Только вместо слов здесь визуальные токены, которые кодируют части картинки.

Подход не новый, но долгое время он уступал диффузионным моделям по качеству. Ситуация начала меняться, когда исследователи научились лучше преобразовывать изображения в токены и обучать трансформеры на визуальных данных.

Что AMD сделала иначе

Nitro-AR построен на базе предыдущей разработки команды – модели Nitro. Новая версия компактнее и быстрее. Главное отличие – в архитектуре и способе обучения.

Модель использует улучшенный токенизатор, который более эффективно сжимает изображение в последовательность токенов. Это позволяет трансформеру работать с меньшим числом элементов и тратить меньше времени на генерацию.

Ещё один момент – Nitro-AR обучали на разрешениях до 1024×1024 пикселей, но модель может генерировать изображения и более высокого разрешения. Это делает её гибкой для разных задач.

Скорость и размер имеют значение

Одна из сильных сторон Nitro-AR – компактность. Модель занимает меньше памяти, чем многие диффузионные аналоги, и работает быстрее на этапе генерации. Это важно для практического применения, особенно когда нужно развернуть модель на ограниченном оборудовании или генерировать много изображений за короткое время.

AMD отмечает, что Nitro-AR показывает конкурентное качество при меньших вычислительных затратах. Проще говоря, вы получаете похожий результат, но быстрее и с меньшими требованиями к ресурсам.

Где это может пригодиться

Компактные авторегрессионные модели подходят для сценариев, где важна скорость: генерация контента в реальном времени, встраивание в приложения, работа на устройствах с ограниченной памятью. Ещё один плюс авторегрессионного подхода – его проще масштабировать и комбинировать с другими задачами, например с генерацией текста.

Но есть и ограничения. Авторегрессионные модели сложнее обучать, они чувствительны к ошибкам на ранних этапах генерации, и ими труднее управлять процессом создания изображения по ходу дела – в отличие от диффузионных моделей, где можно вмешиваться на разных шагах.

Что дальше

Nitro-AR – это ещё один шаг в развитии авторегрессионной генерации. Подход пока не вытеснил диффузионные модели, но он становится всё более конкурентоспособным. Возможно, в будущем мы увидим гибридные архитектуры, которые объединят сильные стороны обоих методов.

Пока AMD показывает, что авторегрессионная генерация может быть не только качественной, но и практичной – быстрой и лёгкой.

Оригинальное название: Nitro-AR: A Compact AR Transformer for High-Quality Image Generation – ROCm Blogs
Дата публикации: 22 янв 2026
AMDwww.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья AMD представила метод разделения GPU для параллельного запуска нескольких LLM Следующая статья Генеративный ИИ: когда удобство сталкивается с этикой

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

BSC и ACAPPS разрабатывают технологии на основе искусственного интеллекта, призванные помочь глухим и слабослышащим людям эффективнее взаимодействовать с цифровыми сервисами.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться