Опубликовано 2 апреля 2026

AMD на MLPerf Inference 6.0: достижения и новые возможности

AMD на MLPerf Inference 6.0: миллион токенов в секунду и первый выход в видеогенерацию

AMD представила результаты MLPerf Inference 6.0: новые рекорды производительности, первые тесты видеогенерации и масштабирование до кластерного уровня на GPU Instinct MI355X.

Инфраструктура / Технический контекст 5 – 8 минут чтения

Источник события: AMD 5 – 8 минут чтения

Когда компания участвует в отраслевом бенчмарке, обычно ждёшь нечто вроде «наш GPU стал быстрее». AMD в этот раз пошла дальше: в рамках MLPerf Inference 6.0 компания не просто улучшила показатели на знакомых задачах, но и вышла на совершенно новые – включая генерацию видео из текста. Результаты оказались достаточно интересными, чтобы рассмотреть их подробнее.

Что такое MLPerf и почему важен

Что такое MLPerf и почему это важно

MLPerf – это стандартизированный набор тестов, который позволяет сравнивать производительность различного оборудования на задачах машинного обучения. Проще говоря, это своего рода ЕГЭ для AI-ускорителей: все сдают одни и те же «экзамены», и результаты можно честно сопоставлять.

Inference – это режим работы обученной модели, когда она просто отвечает на запросы. Именно этот режим важен в реальных продуктах: когда вы пишете что-то в чат-бот или просите систему что-то сгенерировать, она работает именно в режиме инференса.

Версия 6.0 оказалась для AMD показательной сразу по нескольким причинам.

Миллион токенов в секунду показатель эффективности

Миллион токенов в секунду – это много?

Один из ключевых результатов этого раунда – AMD впервые перешагнула отметку в 1 миллион токенов в секунду в рамках MLPerf Inference. Токен – это примерно слово или его часть; именно в токенах измеряется скорость работы языковых моделей.

Миллион токенов в секунду – это не показатель одного GPU. Речь идёт о кластере из нескольких серверов, работающих совместно. AMD достигла этого результата на модели Llama 2 70B при конфигурации из 11 узлов и 87 GPU Instinct MI355X, а также на модели GPT-OSS-120B при 12 узлах и 94 GPU.

Почему это важно? Потому что реальные производственные системы – особенно те, что обслуживают тысячи пользователей одновременно – работают именно на кластерах, а не на одиночных картах. Способность масштабироваться без потери эффективности – это и есть ключевое требование к инфраструктуре.

При масштабировании с одного узла до 11 эффективность сохранилась на уровне 93% в стандартных режимах и 98% в интерактивном. Это близко к идеальному линейному росту, то есть каждый новый сервер добавляет почти столько же производительности, сколько предыдущий, без значительных потерь на координацию.

Как AMD MI355X конкурирует с другими

Как MI355X смотрится рядом с конкурентами

AMD сравнила свои результаты с NVIDIA B200 и B300 на задаче Llama 2 70B – наиболее распространённом языковом бенчмарке в MLPerf.

На одном узле картина такова: относительно NVIDIA B200 платформа AMD Instinct MI355X сравнялась в режиме Offline, показала 97% в Server и 119% в интерактивном режиме. Относительно более нового B300 результаты составили 93%, 92% и 104% соответственно.

Это не победа по всем фронтам, но и не отставание. Особенно показательно, что AMD выступает конкурентоспособно сразу в трёх режимах – а не только в одном, где результат удобнее всего.

Отдельно стоит отметить поколенческий прирост: по сравнению с предыдущей моделью AMD Instinct MI325X новый MI355X показал в 3,1 раза больше токенов в секунду на Llama 2 70B Server. За шесть месяцев – ощутимый скачок.

GPT-OSS-120B первый запуск конкурентоспособные результаты

GPT-OSS-120B: первый запуск, сразу конкурентоспособный

Одним из новых бенчмарков в MLPerf Inference 6.0 стала модель GPT-OSS-120B – она появилась в тестах впервые. Это делает результат особенно интересным: нужно не просто запустить уже знакомую модель, а с нуля обеспечить её работоспособность, оптимизацию и соответствие требованиям точности – всё в рамках жёстких сроков.

AMD справилась: в одноузловых тестах платформа MI355X показала 111% от производительности NVIDIA B200 в режиме Offline и 115% в Server. Относительно B300 – 91% и 82% соответственно.

На многоузловом масштабировании GPT-OSS-120B также стал второй моделью, преодолевшей планку в 1 миллион токенов в секунду. Эффективность масштабирования при 12 узлах составила 92% в Offline и 93% в Server.

Видеогенерация новая область для AMD

Видеогенерация: новая территория

Пожалуй, самое неожиданное в этом раунде – выход AMD за пределы языковых моделей. Компания впервые подала результаты по тесту Wan-2.2-t2v, который проверяет генерацию видео из текстового описания.

Это принципиально другой тип задачи: здесь модель не генерирует текст, а создаёт последовательность кадров. Такие задачи требуют иного характера вычислений и значительно большего объёма памяти.

AMD подала результаты в категорию Open, охватив режим Single Stream – без Offline-части, которая нужна для полного Closed-зачёта. При этом сам Single Stream соответствовал требованиям Closed-категории и может напрямую сравниваться с результатами других участников.

Результат официального тестирования: 93% от производительности NVIDIA B200 и 87% от B300 в Single Stream. После закрытия дедлайна, при дополнительной доработке, показатели выросли до 108% от B200 и паритета с B300, а в неофициальном Offline-тесте – до 111% от B200. Эти постдедлайновые цифры не входят в официальную подборку и не верифицированы MLCommons, но они наглядно показывают, насколько быстро производительность растёт по мере тонкой настройки.

Сам факт участия в этом тесте говорит о многом: генеративный ИИ уже давно не ограничивается текстом, и AMD явно намерена охватывать более широкий спектр задач.

Экосистема партнёров AMD результаты тестов

Не только AMD: экосистема партнёров

Отдельная важная деталь – результаты воспроизводимости. В этом раунде девять партнёров подали собственные результаты на оборудовании AMD: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro и Red Hat. По количеству партнёров AMD разделила первое место среди всех участников.

Тесты охватили четыре поколения GPU: MI300X, MI325X, MI350X и MI355X. При этом результаты партнёров на MI355X отклонились от показателей самой AMD не более чем на 4%, а часть – не более чем на 1%, даже на новых для всех участников задачах.

Это важно по практической причине: покупатель берёт сервер от Dell или HPE – и получает примерно те же цифры, что в официальных тестах AMD. Разрыв между лабораторными результатами и реальным оборудованием партнёров минимален.

Первый гетерогенный тест три поколения GPU

Первый гетерогенный тест: три поколения GPU, две страны

Ещё один нестандартный результат этого раунда – первая в истории MLPerf подача с использованием трёх разных поколений GPU AMD одновременно. Конфигурация из MI300X, MI325X и MI355X, собранная Dell и MangoBoost, показала 141 521 токен в секунду в режиме Server и 151 843 в Offline на Llama 2 70B.

Деталь, которая делает этот результат особенно интересным: MI355X находился в лаборатории Dell в США, а MI300X и MI325X – в Корее. То есть тест фактически проверял не просто смешанную конфигурацию, а распределённый инференс через разные географические локации.

Практический смысл здесь очевиден: большинство компаний не меняет всю инфраструктуру разом. Возможность использовать разные поколения GPU в одном кластере – это сценарий, с которым реальные дата-центры сталкиваются постоянно.

Планы AMD на будущее

Что дальше

AMD придерживается годового цикла обновления линейки Instinct: MI300X в 2023 году заложил основу, MI325X в 2024-м расширил её, MI350 Series, включая MI355X, в 2025-м добавил новые типы данных и большую ёмкость памяти. На 2026 год запланирован переход к серии MI400 на архитектуре CDNA 5 – и с ней же связан AMD Helios, стоечное решение для масштабных AI-развёртываний.

MLPerf Inference 6.0 в этом контексте – не просто набор цифр, а демонстрация того, что AMD последовательно движется к инфраструктуре кластерного и стоечного масштаба: с предсказуемым оборудованием, воспроизводимыми результатами и программным стеком, способным работать в неоднородных конфигурациях.

Конкуренция с NVIDIA по-прежнему неравная на многих фронтах – но разрыв сокращается, а охват задач расширяется. И это уже само по себе заслуживает внимания.

#событие #аналитика #развитие ии #инженерия #компьютерные системы #инфраструктура #бенчмарки ии #масштабирование моделей #энергоэффективность

Ссылка на публикацию: https://www.amd.com/en/blogs/2026/amd-delivers-breakthrough-mlperf-inference-6-0-results.html

Оригинальное название: AMD Delivers Breakthrough MLPerf Inference 6.0 Results

Дата публикации: 1 апр 2026

AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.

Предыдущая статья Red Hat AI показала лучшие результаты в MLPerf Inference v6.0 – и вот что за этим стоит Следующая статья Trinity-Large-Thinking: Открытая модель для серьёзных задач

AMD на MLPerf Inference 6.0: достижения и новые возможности

Что такое MLPerf и почему важен

Миллион токенов в секунду показатель эффективности

Как AMD MI355X конкурирует с другими

GPT-OSS-120B первый запуск конкурентоспособные результаты

Видеогенерация новая область для AMD

Экосистема партнёров AMD результаты тестов

Первый гетерогенный тест три поколения GPU

Планы AMD на будущее

Связанные публикации

Red Hat AI показала лучшие результаты в MLPerf Inference v6.0 – и вот что за этим стоит

AMD и искусственный интеллект: как компания догоняет лидеров рынка по производительности инференса

Lightmatter вступила в отраслевой альянс XPO MSA: что это значит для ИИ-инфраструктуры

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации