Опубликовано 2 апреля 2026

AMD на MLPerf Inference 6.0: достижения и новые возможности

AMD на MLPerf Inference 6.0: миллион токенов в секунду и первый выход в видеогенерацию

AMD представила результаты MLPerf Inference 6.0: новые рекорды производительности, первые тесты видеогенерации и масштабирование до кластерного уровня на GPU Instinct MI355X.

Инфраструктура / Технический контекст 5 – 8 минут чтения
Источник события: AMD 5 – 8 минут чтения

Когда компания участвует в отраслевом бенчмарке, обычно ждёшь нечто вроде «наш GPU стал быстрее». AMD в этот раз пошла дальше: в рамках MLPerf Inference 6.0 компания не просто улучшила показатели на знакомых задачах, но и вышла на совершенно новые – включая генерацию видео из текста. Результаты оказались достаточно интересными, чтобы рассмотреть их подробнее.

Что такое MLPerf и почему важен

Что такое MLPerf и почему это важно

MLPerf – это стандартизированный набор тестов, который позволяет сравнивать производительность различного оборудования на задачах машинного обучения. Проще говоря, это своего рода ЕГЭ для AI-ускорителей: все сдают одни и те же «экзамены», и результаты можно честно сопоставлять.

Inference – это режим работы обученной модели, когда она просто отвечает на запросы. Именно этот режим важен в реальных продуктах: когда вы пишете что-то в чат-бот или просите систему что-то сгенерировать, она работает именно в режиме инференса.

Версия 6.0 оказалась для AMD показательной сразу по нескольким причинам.

Миллион токенов в секунду показатель эффективности

Миллион токенов в секунду – это много?

Один из ключевых результатов этого раунда – AMD впервые перешагнула отметку в 1 миллион токенов в секунду в рамках MLPerf Inference. Токен – это примерно слово или его часть; именно в токенах измеряется скорость работы языковых моделей.

Миллион токенов в секунду – это не показатель одного GPU. Речь идёт о кластере из нескольких серверов, работающих совместно. AMD достигла этого результата на модели Llama 2 70B при конфигурации из 11 узлов и 87 GPU Instinct MI355X, а также на модели GPT-OSS-120B при 12 узлах и 94 GPU.

Почему это важно? Потому что реальные производственные системы – особенно те, что обслуживают тысячи пользователей одновременно – работают именно на кластерах, а не на одиночных картах. Способность масштабироваться без потери эффективности – это и есть ключевое требование к инфраструктуре.

При масштабировании с одного узла до 11 эффективность сохранилась на уровне 93% в стандартных режимах и 98% в интерактивном. Это близко к идеальному линейному росту, то есть каждый новый сервер добавляет почти столько же производительности, сколько предыдущий, без значительных потерь на координацию.

Как AMD MI355X конкурирует с другими

Как MI355X смотрится рядом с конкурентами

AMD сравнила свои результаты с NVIDIA B200 и B300 на задаче Llama 2 70B – наиболее распространённом языковом бенчмарке в MLPerf.

На одном узле картина такова: относительно NVIDIA B200 платформа AMD Instinct MI355X сравнялась в режиме Offline, показала 97% в Server и 119% в интерактивном режиме. Относительно более нового B300 результаты составили 93%, 92% и 104% соответственно.

Это не победа по всем фронтам, но и не отставание. Особенно показательно, что AMD выступает конкурентоспособно сразу в трёх режимах – а не только в одном, где результат удобнее всего.

Отдельно стоит отметить поколенческий прирост: по сравнению с предыдущей моделью AMD Instinct MI325X новый MI355X показал в 3,1 раза больше токенов в секунду на Llama 2 70B Server. За шесть месяцев – ощутимый скачок.

GPT-OSS-120B первый запуск конкурентоспособные результаты

GPT-OSS-120B: первый запуск, сразу конкурентоспособный

Одним из новых бенчмарков в MLPerf Inference 6.0 стала модель GPT-OSS-120B – она появилась в тестах впервые. Это делает результат особенно интересным: нужно не просто запустить уже знакомую модель, а с нуля обеспечить её работоспособность, оптимизацию и соответствие требованиям точности – всё в рамках жёстких сроков.

AMD справилась: в одноузловых тестах платформа MI355X показала 111% от производительности NVIDIA B200 в режиме Offline и 115% в Server. Относительно B300 – 91% и 82% соответственно.

На многоузловом масштабировании GPT-OSS-120B также стал второй моделью, преодолевшей планку в 1 миллион токенов в секунду. Эффективность масштабирования при 12 узлах составила 92% в Offline и 93% в Server.

Видеогенерация новая область для AMD

Видеогенерация: новая территория

Пожалуй, самое неожиданное в этом раунде – выход AMD за пределы языковых моделей. Компания впервые подала результаты по тесту Wan-2.2-t2v, который проверяет генерацию видео из текстового описания.

Это принципиально другой тип задачи: здесь модель не генерирует текст, а создаёт последовательность кадров. Такие задачи требуют иного характера вычислений и значительно большего объёма памяти.

AMD подала результаты в категорию Open, охватив режим Single Stream – без Offline-части, которая нужна для полного Closed-зачёта. При этом сам Single Stream соответствовал требованиям Closed-категории и может напрямую сравниваться с результатами других участников.

Результат официального тестирования: 93% от производительности NVIDIA B200 и 87% от B300 в Single Stream. После закрытия дедлайна, при дополнительной доработке, показатели выросли до 108% от B200 и паритета с B300, а в неофициальном Offline-тесте – до 111% от B200. Эти постдедлайновые цифры не входят в официальную подборку и не верифицированы MLCommons, но они наглядно показывают, насколько быстро производительность растёт по мере тонкой настройки.

Сам факт участия в этом тесте говорит о многом: генеративный ИИ уже давно не ограничивается текстом, и AMD явно намерена охватывать более широкий спектр задач.

Экосистема партнёров AMD результаты тестов

Не только AMD: экосистема партнёров

Отдельная важная деталь – результаты воспроизводимости. В этом раунде девять партнёров подали собственные результаты на оборудовании AMD: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro и Red Hat. По количеству партнёров AMD разделила первое место среди всех участников.

Тесты охватили четыре поколения GPU: MI300X, MI325X, MI350X и MI355X. При этом результаты партнёров на MI355X отклонились от показателей самой AMD не более чем на 4%, а часть – не более чем на 1%, даже на новых для всех участников задачах.

Это важно по практической причине: покупатель берёт сервер от Dell или HPE – и получает примерно те же цифры, что в официальных тестах AMD. Разрыв между лабораторными результатами и реальным оборудованием партнёров минимален.

Первый гетерогенный тест три поколения GPU

Первый гетерогенный тест: три поколения GPU, две страны

Ещё один нестандартный результат этого раунда – первая в истории MLPerf подача с использованием трёх разных поколений GPU AMD одновременно. Конфигурация из MI300X, MI325X и MI355X, собранная Dell и MangoBoost, показала 141 521 токен в секунду в режиме Server и 151 843 в Offline на Llama 2 70B.

Деталь, которая делает этот результат особенно интересным: MI355X находился в лаборатории Dell в США, а MI300X и MI325X – в Корее. То есть тест фактически проверял не просто смешанную конфигурацию, а распределённый инференс через разные географические локации.

Практический смысл здесь очевиден: большинство компаний не меняет всю инфраструктуру разом. Возможность использовать разные поколения GPU в одном кластере – это сценарий, с которым реальные дата-центры сталкиваются постоянно.

Планы AMD на будущее

Что дальше

AMD придерживается годового цикла обновления линейки Instinct: MI300X в 2023 году заложил основу, MI325X в 2024-м расширил её, MI350 Series, включая MI355X, в 2025-м добавил новые типы данных и большую ёмкость памяти. На 2026 год запланирован переход к серии MI400 на архитектуре CDNA 5 – и с ней же связан AMD Helios, стоечное решение для масштабных AI-развёртываний.

MLPerf Inference 6.0 в этом контексте – не просто набор цифр, а демонстрация того, что AMD последовательно движется к инфраструктуре кластерного и стоечного масштаба: с предсказуемым оборудованием, воспроизводимыми результатами и программным стеком, способным работать в неоднородных конфигурациях.

Конкуренция с NVIDIA по-прежнему неравная на многих фронтах – но разрыв сокращается, а охват задач расширяется. И это уже само по себе заслуживает внимания.

Оригинальное название: AMD Delivers Breakthrough MLPerf Inference 6.0 Results
Дата публикации: 1 апр 2026
AMD www.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Red Hat AI показала лучшие результаты в MLPerf Inference v6.0 – и вот что за этим стоит Следующая статья Trinity-Large-Thinking: Открытая модель для серьёзных задач

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

AMD рассказала о прогрессе в поддержке ИИ-моделей на своих GPU: от базовой совместимости до оптимизированной производительности, сопоставимой с конкурентами.

AMDwww.amd.com 18 фев 2026

Компания Lightmatter стала одним из основателей альянса XPO MSA, цель которого – ускорить внедрение высокоплотных оптических соединений в дата-центрах для ИИ.

Lightmatterlightmatter.co 12 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться