Когда говорят об ускорении языковых моделей, обычно подразумевают NVIDIA. Но это не единственный путь. Команда Qwen решила показать, на что способны ускорители AMD, и результаты получились весьма любопытные.
Речь идёт о серии MI300X – профессиональных видеокартах AMD для работы с большими моделями. Qwen взяли свои модели третьего поколения, включая мультимодальную Qwen3-VL, и довели их производительность на этом оборудовании до такого уровня, когда задержка перестаёт быть проблемой даже для интерактивных задач.
Что именно ускорили
Проще говоря, есть два основных сценария работы языковой модели. Первый – это prefill (предварительное заполнение), когда модель обрабатывает ваш запрос целиком, прежде чем начать генерировать ответ. Второй – это decode (декодирование), когда она уже выдаёт токены один за другим.
Задача Qwen заключалась в том, чтобы оба этих этапа работали максимально быстро на оборудовании AMD. Для этого они использовали несколько техник:
- Квантование – сжатие весов модели до 4 бит вместо стандартных 16. Это снижает объём данных, которые нужно перемещать в памяти, и ускоряет вычисления.
- Continuous batching (непрерывная пакетизация) – способ обрабатывать несколько запросов одновременно, не дожидаясь завершения предыдущих. Это важно для серверных сценариев, где запросы поступают постоянно.
- Специализированные ядра для работы с операцией внимания (attention) – ключевой части трансформерных моделей. Здесь использовали FlashAttention-2 и оптимизированные версии для AMD.
Всё это позволило выжать из оборудования то, что обычно требует более дорогих решений.
Что получилось на практике
Команда протестировала несколько конфигураций. Например, модель Qwen2.5-Coder-32B-Instruct с квантованием AWQ (4 бита) на одной карте MI300X выдаёт около 66 токенов в секунду при работе с одним запросом. Задержка на токен – примерно 15 миллисекунд.
Для сравнения, это означает, что ответ длиной в 100 токенов (примерно 75 слов) модель сгенерирует за полторы секунды. Это уже вполне комфортная скорость для диалоговых интерфейсов.
Если увеличить количество одновременных запросов, пропускная способность растёт. На двух картах MI300X модель обрабатывает до 32 запросов параллельно с общей скоростью около 1000 токенов в секунду. Это уже серверный масштаб.
Что с мультимодальными моделями
Отдельно стоит упомянуть Qwen3-VL – это версия модели, которая работает не только с текстом, но и с изображениями. Здесь задача сложнее: изображение нужно сначала превратить в набор токенов, потом обработать их вместе с текстом, а затем сгенерировать ответ – или новую картинку.
На MI300X модель Qwen3-VL-7B с квантованием до 4 бит генерирует изображение размером 1024×1024 пикселя примерно за 0,4 секунды. Это заметно быстрее, чем у большинства диффузионных моделей, которые обычно используются для генерации картинок.
Задержка при работе с текстом и изображениями одновременно – около 18 миллисекунд на токен. То есть почти так же быстро, как у текстовых моделей.
Почему это важно
Во-первых, это показывает, что AMD MI300X – вполне рабочий вариант для инференса больших моделей. Раньше такие задачи почти всегда решались на NVIDIA, и альтернатив было мало.
Во-вторых, результаты Qwen подтверждают, что квантование и правильная оптимизация позволяют запускать модели на 30+ миллиардов параметров на одной карте – и делать это быстро. Это снижает требования к инфраструктуре и делает развёртывание моделей дешевле.
В-третьих, скорость генерации изображений у Qwen3-VL открывает возможности для интерактивных приложений: редакторов, помощников, интерфейсов, где пользователь ожидает мгновенной реакции.
Что осталось за кадром
Конечно, есть нюансы. Квантование до 4 бит всегда сопровождается небольшой потерей качества – модель становится чуть менее точной. В большинстве случаев это незаметно, но для задач, требующих высокой аккуратности, может иметь значение.
Также стоит учитывать, что результаты получены в оптимальных условиях: с использованием специально настроенного программного обеспечения, на актуальных версиях библиотек, с учётом особенностей архитектуры AMD. В реальных сценариях могут возникнуть дополнительные сложности – например, при интеграции с существующими системами или при работе с другими моделями.
Наконец, MI300X – это всё ещё профессиональное оборудование, и его стоимость сопоставима с топовыми решениями NVIDIA. То есть это не бюджетная альтернатива, а скорее ещё один вариант для тех, кто строит серьёзную инфраструктуру.
Итог
Команда Qwen продемонстрировала, что их модели третьего поколения могут работать на AMD MI300X с задержками, которые подходят для интерактивных приложений. Текстовая генерация – около 15 мс на токен, генерация изображений – до 0,4 секунды на картинку 1024×1024.
Это результат комбинации квантования, оптимизированных ядер и правильной работы с памятью. И это ещё один сигнал, что рынок ускорителей для ИИ становится разнообразнее.