Опубликовано 13 февраля 2026

AMD MI300X и Qwen: ускорение языковых моделей

Как AMD и Qwen выжали максимум из видеокарт MI300X

Команда Qwen оптимизировала свои модели для работы на AMD MI300X, добившись задержки отклика до 15 мс на токен и полной генерации изображения за 0,4 секунды.

Инфраструктура / Технический контекст 4 – 5 минут чтения
Источник события: LMSYS ORG 4 – 5 минут чтения

Когда говорят об ускорении языковых моделей, обычно подразумевают NVIDIA. Но это не единственный путь. Команда Qwen решила показать, на что способны ускорители AMD, и результаты получились весьма любопытные.

Речь идёт о серии MI300X – профессиональных видеокартах AMD для работы с большими моделями. Qwen взяли свои модели третьего поколения, включая мультимодальную Qwen3-VL, и довели их производительность на этом оборудовании до такого уровня, когда задержка перестаёт быть проблемой даже для интерактивных задач.

Что ускорили в языковых моделях Qwen

Что именно ускорили

Проще говоря, есть два основных сценария работы языковой модели. Первый – это prefill (предварительное заполнение), когда модель обрабатывает ваш запрос целиком, прежде чем начать генерировать ответ. Второй – это decode (декодирование), когда она уже выдаёт токены один за другим.

Задача Qwen заключалась в том, чтобы оба этих этапа работали максимально быстро на оборудовании AMD. Для этого они использовали несколько техник:

  • Квантование – сжатие весов модели до 4 бит вместо стандартных 16. Это снижает объём данных, которые нужно перемещать в памяти, и ускоряет вычисления.
  • Continuous batching (непрерывная пакетизация) – способ обрабатывать несколько запросов одновременно, не дожидаясь завершения предыдущих. Это важно для серверных сценариев, где запросы поступают постоянно.
  • Специализированные ядра для работы с операцией внимания (attention) – ключевой части трансформерных моделей. Здесь использовали FlashAttention-2 и оптимизированные версии для AMD.

Всё это позволило выжать из оборудования то, что обычно требует более дорогих решений.

Результаты тестирования производительности на AMD MI300X

Что получилось на практике

Команда протестировала несколько конфигураций. Например, модель Qwen2.5-Coder-32B-Instruct с квантованием AWQ (4 бита) на одной карте MI300X выдаёт около 66 токенов в секунду при работе с одним запросом. Задержка на токен – примерно 15 миллисекунд.

Для сравнения, это означает, что ответ длиной в 100 токенов (примерно 75 слов) модель сгенерирует за полторы секунды. Это уже вполне комфортная скорость для диалоговых интерфейсов.

Если увеличить количество одновременных запросов, пропускная способность растёт. На двух картах MI300X модель обрабатывает до 32 запросов параллельно с общей скоростью около 1000 токенов в секунду. Это уже серверный масштаб.

Оптимизация мультимодальных моделей Qwen на AMD

Что с мультимодальными моделями

Отдельно стоит упомянуть Qwen3-VL – это версия модели, которая работает не только с текстом, но и с изображениями. Здесь задача сложнее: изображение нужно сначала превратить в набор токенов, потом обработать их вместе с текстом, а затем сгенерировать ответ – или новую картинку.

На MI300X модель Qwen3-VL-7B с квантованием до 4 бит генерирует изображение размером 1024×1024 пикселя примерно за 0,4 секунды. Это заметно быстрее, чем у большинства диффузионных моделей, которые обычно используются для генерации картинок.

Задержка при работе с текстом и изображениями одновременно – около 18 миллисекунд на токен. То есть почти так же быстро, как у текстовых моделей.

Значение работы Qwen и AMD для развития ИИ

Почему это важно

Во-первых, это показывает, что AMD MI300X – вполне рабочий вариант для инференса больших моделей. Раньше такие задачи почти всегда решались на NVIDIA, и альтернатив было мало.

Во-вторых, результаты Qwen подтверждают, что квантование и правильная оптимизация позволяют запускать модели на 30+ миллиардов параметров на одной карте – и делать это быстро. Это снижает требования к инфраструктуре и делает развёртывание моделей дешевле.

В-третьих, скорость генерации изображений у Qwen3-VL открывает возможности для интерактивных приложений: редакторов, помощников, интерфейсов, где пользователь ожидает мгновенной реакции.

Нюансы и ограничения оптимизации MI300X

Что осталось за кадром

Конечно, есть нюансы. Квантование до 4 бит всегда сопровождается небольшой потерей качества – модель становится чуть менее точной. В большинстве случаев это незаметно, но для задач, требующих высокой аккуратности, может иметь значение.

Также стоит учитывать, что результаты получены в оптимальных условиях: с использованием специально настроенного программного обеспечения, на актуальных версиях библиотек, с учётом особенностей архитектуры AMD. В реальных сценариях могут возникнуть дополнительные сложности – например, при интеграции с существующими системами или при работе с другими моделями.

Наконец, MI300X – это всё ещё профессиональное оборудование, и его стоимость сопоставима с топовыми решениями NVIDIA. То есть это не бюджетная альтернатива, а скорее ещё один вариант для тех, кто строит серьёзную инфраструктуру.

Выводы об ускорении моделей Qwen на AMD MI300X

Итог

Команда Qwen продемонстрировала, что их модели третьего поколения могут работать на AMD MI300X с задержками, которые подходят для интерактивных приложений. Текстовая генерация – около 15 мс на токен, генерация изображений – до 0,4 секунды на картинку 1024×1024.

Это результат комбинации квантования, оптимизированных ядер и правильной работы с памятью. И это ещё один сигнал, что рынок ускорителей для ИИ становится разнообразнее.

Ссылка на публикацию: https://lmsys.org/blog/2026-02-11-Qwen-latency
Оригинальное название: Unleashing Computational Power: Ultimate Latency Optimization of Qwen3 and Qwen3-VL on AMD MI300X Series
Дата публикации: 11 фев 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Обучение языковых моделей через обратную связь: verl теперь работает на видеокартах AMD Следующая статья MiniMax представила Forge – платформу для обучения ИИ-агентов на мощных вычислительных кластерах

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

AMD представила метод разделения GPU для параллельного запуска нескольких LLM

Технический контекст Инфраструктура

AMD раскрыла метод разделения одного графического процессора на изолированные области для одновременной работы различных моделей – без потерь в безопасности и производительности.

AMDwww.amd.com 23 янв 2026

Компания AMD продемонстрировала технологию симуляции работы роботов локально на ПК с использованием собственных видеокарт – без привлечения облачных серверов и дорогостоящих вычислительных ферм.

AMDwww.amd.com 10 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться