В генерации изображений сейчас соревнуются два подхода: диффузионные модели и авторегрессионные. Первые постепенно убирают шум из картинки, вторые собирают её по частям, как пазл – токен за токеном. AMD решила усилить второй вариант и выпустила Nitro-AR, компактный трансформер, который работает быстрее и легче многих конкурентов.
Что такое авторегрессионная генерация
Авторегрессионные модели работают так: они предсказывают следующий элемент изображения, опираясь на всё, что уже сгенерировали. Это похоже на то, как языковые модели пишут текст – слово за словом. Только вместо слов здесь визуальные токены, которые кодируют части картинки.
Подход не новый, но долгое время он уступал диффузионным моделям по качеству. Ситуация начала меняться, когда исследователи научились лучше преобразовывать изображения в токены и обучать трансформеры на визуальных данных.
Что AMD сделала иначе
Nitro-AR построен на базе предыдущей разработки команды – модели Nitro. Новая версия компактнее и быстрее. Главное отличие – в архитектуре и способе обучения.
Модель использует улучшенный токенизатор, который более эффективно сжимает изображение в последовательность токенов. Это позволяет трансформеру работать с меньшим числом элементов и тратить меньше времени на генерацию.
Ещё один момент – Nitro-AR обучали на разрешениях до 1024×1024 пикселей, но модель может генерировать изображения и более высокого разрешения. Это делает её гибкой для разных задач.
Скорость и размер имеют значение
Одна из сильных сторон Nitro-AR – компактность. Модель занимает меньше памяти, чем многие диффузионные аналоги, и работает быстрее на этапе генерации. Это важно для практического применения, особенно когда нужно развернуть модель на ограниченном оборудовании или генерировать много изображений за короткое время.
AMD отмечает, что Nitro-AR показывает конкурентное качество при меньших вычислительных затратах. Проще говоря, вы получаете похожий результат, но быстрее и с меньшими требованиями к ресурсам.
Где это может пригодиться
Компактные авторегрессионные модели подходят для сценариев, где важна скорость: генерация контента в реальном времени, встраивание в приложения, работа на устройствах с ограниченной памятью. Ещё один плюс авторегрессионного подхода – его проще масштабировать и комбинировать с другими задачами, например с генерацией текста.
Но есть и ограничения. Авторегрессионные модели сложнее обучать, они чувствительны к ошибкам на ранних этапах генерации, и ими труднее управлять процессом создания изображения по ходу дела – в отличие от диффузионных моделей, где можно вмешиваться на разных шагах.
Что дальше
Nitro-AR – это ещё один шаг в развитии авторегрессионной генерации. Подход пока не вытеснил диффузионные модели, но он становится всё более конкурентоспособным. Возможно, в будущем мы увидим гибридные архитектуры, которые объединят сильные стороны обоих методов.
Пока AMD показывает, что авторегрессионная генерация может быть не только качественной, но и практичной – быстрой и лёгкой.