Когда компания участвует в отраслевом бенчмарке, обычно ждёшь нечто вроде «наш GPU стал быстрее». AMD в этот раз пошла дальше: в рамках MLPerf Inference 6.0 компания не просто улучшила показатели на знакомых задачах, но и вышла на совершенно новые – включая генерацию видео из текста. Результаты оказались достаточно интересными, чтобы рассмотреть их подробнее.
Что такое MLPerf и почему это важно
MLPerf – это стандартизированный набор тестов, который позволяет сравнивать производительность различного оборудования на задачах машинного обучения. Проще говоря, это своего рода ЕГЭ для AI-ускорителей: все сдают одни и те же «экзамены», и результаты можно честно сопоставлять.
Inference – это режим работы обученной модели, когда она просто отвечает на запросы. Именно этот режим важен в реальных продуктах: когда вы пишете что-то в чат-бот или просите систему что-то сгенерировать, она работает именно в режиме инференса.
Версия 6.0 оказалась для AMD показательной сразу по нескольким причинам.
Миллион токенов в секунду – это много?
Один из ключевых результатов этого раунда – AMD впервые перешагнула отметку в 1 миллион токенов в секунду в рамках MLPerf Inference. Токен – это примерно слово или его часть; именно в токенах измеряется скорость работы языковых моделей.
Миллион токенов в секунду – это не показатель одного GPU. Речь идёт о кластере из нескольких серверов, работающих совместно. AMD достигла этого результата на модели Llama 2 70B при конфигурации из 11 узлов и 87 GPU Instinct MI355X, а также на модели GPT-OSS-120B при 12 узлах и 94 GPU.
Почему это важно? Потому что реальные производственные системы – особенно те, что обслуживают тысячи пользователей одновременно – работают именно на кластерах, а не на одиночных картах. Способность масштабироваться без потери эффективности – это и есть ключевое требование к инфраструктуре.
При масштабировании с одного узла до 11 эффективность сохранилась на уровне 93% в стандартных режимах и 98% в интерактивном. Это близко к идеальному линейному росту, то есть каждый новый сервер добавляет почти столько же производительности, сколько предыдущий, без значительных потерь на координацию.
Как MI355X смотрится рядом с конкурентами
AMD сравнила свои результаты с NVIDIA B200 и B300 на задаче Llama 2 70B – наиболее распространённом языковом бенчмарке в MLPerf.
На одном узле картина такова: относительно NVIDIA B200 платформа AMD Instinct MI355X сравнялась в режиме Offline, показала 97% в Server и 119% в интерактивном режиме. Относительно более нового B300 результаты составили 93%, 92% и 104% соответственно.
Это не победа по всем фронтам, но и не отставание. Особенно показательно, что AMD выступает конкурентоспособно сразу в трёх режимах – а не только в одном, где результат удобнее всего.
Отдельно стоит отметить поколенческий прирост: по сравнению с предыдущей моделью AMD Instinct MI325X новый MI355X показал в 3,1 раза больше токенов в секунду на Llama 2 70B Server. За шесть месяцев – ощутимый скачок.
GPT-OSS-120B: первый запуск, сразу конкурентоспособный
Одним из новых бенчмарков в MLPerf Inference 6.0 стала модель GPT-OSS-120B – она появилась в тестах впервые. Это делает результат особенно интересным: нужно не просто запустить уже знакомую модель, а с нуля обеспечить её работоспособность, оптимизацию и соответствие требованиям точности – всё в рамках жёстких сроков.
AMD справилась: в одноузловых тестах платформа MI355X показала 111% от производительности NVIDIA B200 в режиме Offline и 115% в Server. Относительно B300 – 91% и 82% соответственно.
На многоузловом масштабировании GPT-OSS-120B также стал второй моделью, преодолевшей планку в 1 миллион токенов в секунду. Эффективность масштабирования при 12 узлах составила 92% в Offline и 93% в Server.
Видеогенерация: новая территория
Пожалуй, самое неожиданное в этом раунде – выход AMD за пределы языковых моделей. Компания впервые подала результаты по тесту Wan-2.2-t2v, который проверяет генерацию видео из текстового описания.
Это принципиально другой тип задачи: здесь модель не генерирует текст, а создаёт последовательность кадров. Такие задачи требуют иного характера вычислений и значительно большего объёма памяти.
AMD подала результаты в категорию Open, охватив режим Single Stream – без Offline-части, которая нужна для полного Closed-зачёта. При этом сам Single Stream соответствовал требованиям Closed-категории и может напрямую сравниваться с результатами других участников.
Результат официального тестирования: 93% от производительности NVIDIA B200 и 87% от B300 в Single Stream. После закрытия дедлайна, при дополнительной доработке, показатели выросли до 108% от B200 и паритета с B300, а в неофициальном Offline-тесте – до 111% от B200. Эти постдедлайновые цифры не входят в официальную подборку и не верифицированы MLCommons, но они наглядно показывают, насколько быстро производительность растёт по мере тонкой настройки.
Сам факт участия в этом тесте говорит о многом: генеративный ИИ уже давно не ограничивается текстом, и AMD явно намерена охватывать более широкий спектр задач.
Не только AMD: экосистема партнёров
Отдельная важная деталь – результаты воспроизводимости. В этом раунде девять партнёров подали собственные результаты на оборудовании AMD: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro и Red Hat. По количеству партнёров AMD разделила первое место среди всех участников.
Тесты охватили четыре поколения GPU: MI300X, MI325X, MI350X и MI355X. При этом результаты партнёров на MI355X отклонились от показателей самой AMD не более чем на 4%, а часть – не более чем на 1%, даже на новых для всех участников задачах.
Это важно по практической причине: покупатель берёт сервер от Dell или HPE – и получает примерно те же цифры, что в официальных тестах AMD. Разрыв между лабораторными результатами и реальным оборудованием партнёров минимален.
Первый гетерогенный тест: три поколения GPU, две страны
Ещё один нестандартный результат этого раунда – первая в истории MLPerf подача с использованием трёх разных поколений GPU AMD одновременно. Конфигурация из MI300X, MI325X и MI355X, собранная Dell и MangoBoost, показала 141 521 токен в секунду в режиме Server и 151 843 в Offline на Llama 2 70B.
Деталь, которая делает этот результат особенно интересным: MI355X находился в лаборатории Dell в США, а MI300X и MI325X – в Корее. То есть тест фактически проверял не просто смешанную конфигурацию, а распределённый инференс через разные географические локации.
Практический смысл здесь очевиден: большинство компаний не меняет всю инфраструктуру разом. Возможность использовать разные поколения GPU в одном кластере – это сценарий, с которым реальные дата-центры сталкиваются постоянно.
Что дальше
AMD придерживается годового цикла обновления линейки Instinct: MI300X в 2023 году заложил основу, MI325X в 2024-м расширил её, MI350 Series, включая MI355X, в 2025-м добавил новые типы данных и большую ёмкость памяти. На 2026 год запланирован переход к серии MI400 на архитектуре CDNA 5 – и с ней же связан AMD Helios, стоечное решение для масштабных AI-развёртываний.
MLPerf Inference 6.0 в этом контексте – не просто набор цифр, а демонстрация того, что AMD последовательно движется к инфраструктуре кластерного и стоечного масштаба: с предсказуемым оборудованием, воспроизводимыми результатами и программным стеком, способным работать в неоднородных конфигурациях.
Конкуренция с NVIDIA по-прежнему неравная на многих фронтах – но разрыв сокращается, а охват задач расширяется. И это уже само по себе заслуживает внимания.