Опубликовано 13 февраля 2026

AMD MI300X и Qwen: ускорение языковых моделей

Как AMD и Qwen выжали максимум из видеокарт MI300X

Команда Qwen оптимизировала свои модели для работы на AMD MI300X, добившись задержки отклика до 15 мс на токен и полной генерации изображения за 0,4 секунды.

Инфраструктура / Технический контекст 4 – 5 минут чтения

Источник события: LMSYS ORG 4 – 5 минут чтения

Когда говорят об ускорении языковых моделей, обычно подразумевают NVIDIA. Но это не единственный путь. Команда Qwen решила показать, на что способны ускорители AMD, и результаты получились весьма любопытные.

Речь идёт о серии MI300X – профессиональных видеокартах AMD для работы с большими моделями. Qwen взяли свои модели третьего поколения, включая мультимодальную Qwen3-VL, и довели их производительность на этом оборудовании до такого уровня, когда задержка перестаёт быть проблемой даже для интерактивных задач.

Что ускорили в языковых моделях Qwen

Что именно ускорили

Проще говоря, есть два основных сценария работы языковой модели. Первый – это prefill (предварительное заполнение), когда модель обрабатывает ваш запрос целиком, прежде чем начать генерировать ответ. Второй – это decode (декодирование), когда она уже выдаёт токены один за другим.

Задача Qwen заключалась в том, чтобы оба этих этапа работали максимально быстро на оборудовании AMD. Для этого они использовали несколько техник:

Квантование – сжатие весов модели до 4 бит вместо стандартных 16. Это снижает объём данных, которые нужно перемещать в памяти, и ускоряет вычисления.
Continuous batching (непрерывная пакетизация) – способ обрабатывать несколько запросов одновременно, не дожидаясь завершения предыдущих. Это важно для серверных сценариев, где запросы поступают постоянно.
Специализированные ядра для работы с операцией внимания (attention) – ключевой части трансформерных моделей. Здесь использовали FlashAttention-2 и оптимизированные версии для AMD.

Всё это позволило выжать из оборудования то, что обычно требует более дорогих решений.

Результаты тестирования производительности на AMD MI300X

Что получилось на практике

Команда протестировала несколько конфигураций. Например, модель Qwen2.5-Coder-32B-Instruct с квантованием AWQ (4 бита) на одной карте MI300X выдаёт около 66 токенов в секунду при работе с одним запросом. Задержка на токен – примерно 15 миллисекунд.

Для сравнения, это означает, что ответ длиной в 100 токенов (примерно 75 слов) модель сгенерирует за полторы секунды. Это уже вполне комфортная скорость для диалоговых интерфейсов.

Если увеличить количество одновременных запросов, пропускная способность растёт. На двух картах MI300X модель обрабатывает до 32 запросов параллельно с общей скоростью около 1000 токенов в секунду. Это уже серверный масштаб.

Оптимизация мультимодальных моделей Qwen на AMD

Что с мультимодальными моделями

Отдельно стоит упомянуть Qwen3-VL – это версия модели, которая работает не только с текстом, но и с изображениями. Здесь задача сложнее: изображение нужно сначала превратить в набор токенов, потом обработать их вместе с текстом, а затем сгенерировать ответ – или новую картинку.

На MI300X модель Qwen3-VL-7B с квантованием до 4 бит генерирует изображение размером 1024×1024 пикселя примерно за 0,4 секунды. Это заметно быстрее, чем у большинства диффузионных моделей, которые обычно используются для генерации картинок.

Задержка при работе с текстом и изображениями одновременно – около 18 миллисекунд на токен. То есть почти так же быстро, как у текстовых моделей.

Значение работы Qwen и AMD для развития ИИ

Почему это важно

Во-первых, это показывает, что AMD MI300X – вполне рабочий вариант для инференса больших моделей. Раньше такие задачи почти всегда решались на NVIDIA, и альтернатив было мало.

Во-вторых, результаты Qwen подтверждают, что квантование и правильная оптимизация позволяют запускать модели на 30+ миллиардов параметров на одной карте – и делать это быстро. Это снижает требования к инфраструктуре и делает развёртывание моделей дешевле.

В-третьих, скорость генерации изображений у Qwen3-VL открывает возможности для интерактивных приложений: редакторов, помощников, интерфейсов, где пользователь ожидает мгновенной реакции.

Нюансы и ограничения оптимизации MI300X

Что осталось за кадром

Конечно, есть нюансы. Квантование до 4 бит всегда сопровождается небольшой потерей качества – модель становится чуть менее точной. В большинстве случаев это незаметно, но для задач, требующих высокой аккуратности, может иметь значение.

Также стоит учитывать, что результаты получены в оптимальных условиях: с использованием специально настроенного программного обеспечения, на актуальных версиях библиотек, с учётом особенностей архитектуры AMD. В реальных сценариях могут возникнуть дополнительные сложности – например, при интеграции с существующими системами или при работе с другими моделями.

Наконец, MI300X – это всё ещё профессиональное оборудование, и его стоимость сопоставима с топовыми решениями NVIDIA. То есть это не бюджетная альтернатива, а скорее ещё один вариант для тех, кто строит серьёзную инфраструктуру.

Выводы об ускорении моделей Qwen на AMD MI300X

Итог

Команда Qwen продемонстрировала, что их модели третьего поколения могут работать на AMD MI300X с задержками, которые подходят для интерактивных приложений. Текстовая генерация – около 15 мс на токен, генерация изображений – до 0,4 секунды на картинку 1024×1024.

Это результат комбинации квантования, оптимизированных ядер и правильной работы с памятью. И это ещё один сигнал, что рынок ускорителей для ИИ становится разнообразнее.

#прикладной разбор #технический контекст #нейросети #развитие ии #инженерия #компьютерные системы #квантование моделей #мультимодальные модели #оптимизация инференса #оптимизация аппаратного ускорения

Ссылка на публикацию: https://lmsys.org/blog/2026-02-11-Qwen-latency

Оригинальное название: Unleashing Computational Power: Ultimate Latency Optimization of Qwen3 and Qwen3-VL on AMD MI300X Series

Дата публикации: 11 фев 2026

LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.

Предыдущая статья Обучение языковых моделей через обратную связь: verl теперь работает на видеокартах AMD Следующая статья MiniMax представила Forge – платформу для обучения ИИ-агентов на мощных вычислительных кластерах

AMD MI300X и Qwen: ускорение языковых моделей

Что ускорили в языковых моделях Qwen

Результаты тестирования производительности на AMD MI300X

Оптимизация мультимодальных моделей Qwen на AMD

Значение работы Qwen и AMD для развития ИИ

Нюансы и ограничения оптимизации MI300X

Выводы об ускорении моделей Qwen на AMD MI300X

Связанные публикации

Как уменьшить «аппетиты» эмбеддинг-моделей на AMD Ryzen AI

AMD представила метод разделения GPU для параллельного запуска нескольких LLM

Цифровые двойники роботов теперь можно запускать на обычных компьютерах с видеокартами AMD

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации