Существует отраслевой тест для ИИ-систем – MLPerf Inference. Это независимый набор задач, по которым измеряют, насколько быстро и эффективно та или иная аппаратная платформа справляется с реальными сценариями использования. Тест исследует не синтетические нагрузки, а задачи, с которыми сталкиваются реальные системы: распознавание изображений, обработка речи, работа с большими языковыми моделями. Результаты публикуются открыто, и именно на них ориентируются компании, выбирая инфраструктуру для развёртывания ИИ.
В последнем раунде – MLPerf Inference v6.0 – Red Hat и NVIDIA выступили совместно и показали одни из лучших результатов сразу в нескольких категориях.
Зачем вообще нужен такой тест
Пока ИИ остаётся чем-то абстрактным, никто особо не задаётся вопросом, как именно он работает «под капотом». Но как только дело доходит до реального развёртывания – в облаке, в корпоративной среде, на производстве – сразу появляются очень конкретные требования: сколько запросов система обрабатывает в секунду, как быстро выдаёт первый ответ, насколько стабильно работает под нагрузкой.
MLPerf как раз и создан для того, чтобы дать на эти вопросы сопоставимые, проверяемые ответы. Тест охватывает несколько сценариев: можно прогнать модель в режиме максимальной пропускной способности (сколько запросов успеет обработать за единицу времени) или в режиме с жёсткими ограничениями по задержке (как в реальных приложениях, где пользователь ждёт ответа немедленно).
Что именно тестировалось
В этом раунде набор задач включал несколько направлений. Во-первых, зрение – классификация изображений, задачи детектирования объектов. Во-вторых, речь – автоматическое распознавание и транскрипция аудио. И, пожалуй, самое интересное направление сегодня – рассуждение: сюда входят большие языковые модели, в частности Llama 3.1 405B, одна из самых тяжёлых открытых моделей на сегодняшний день.
Именно Llama 3.1 405B стала одним из главных испытаний раунда: организаторы MLPerf добавили её специально, чтобы оценить, как платформы справляются с моделями, требующими колоссального количества вычислений на каждый генерируемый токен.
Совместная разработка как условие результата
Особенность этого участия – не просто запуск готового стека на мощном оборудовании, а глубокое совместное проектирование между Red Hat и NVIDIA. Проще говоря, команды работали вместе над тем, чтобы программная и аппаратная части были настроены максимально слаженно.
Red Hat отвечает за корпоративную Linux-платформу и программный стек, на котором разворачиваются ИИ-сервисы. NVIDIA – за аппаратную инфраструктуру и оптимизированные библиотеки для вычислений. Когда эти два слоя проектируются в связке, а не по отдельности, результат на бенчмарках оказывается принципиально другим – и именно это подтвердили показатели v6.0.
Такой подход важен не только для красивой строчки в таблице результатов. Для компаний, которые развёртывают ИИ в производственной среде, это сигнал: связка Red Hat + NVIDIA тестировалась и оптимизировалась не изолированно, а именно в той конфигурации, которую можно воспроизвести в реальной инфраструктуре.
Что говорят цифры
Результаты зафиксированы сразу в нескольких категориях – по пропускной способности и по задержке, на разных моделях. По задачам, связанным с языковыми моделями и рассуждением, а также по задачам распознавания речи и изображений партнёры показали лидирующие показатели среди опубликованных участников.
Отдельного внимания заслуживает производительность на Llama 3.1 405B. Эта модель требует обработки сотен миллиардов параметров, и даже на флагманском оборудовании обеспечить одновременно высокую скорость первого ответа и высокую пропускную способность – нетривиальная задача. Тем не менее результаты на этой модели оказались в числе лучших среди всех, кто опубликовал официальные данные по этому бенчмарку.
Почему это важно за пределами таблицы результатов
MLPerf – это не просто соревнование. Это способ для индустрии договориться об общем языке оценки. Когда разные команды публикуют результаты по одним и тем же правилам, покупатели и разработчики могут сравнивать платформы без маркетинговых искажений.
Участие Red Hat в этом раунде примечательно ещё и тем, что корпоративная Linux-среда исторически воспринималась как нейтральный фундамент, а не как активный участник гонки за производительность ИИ. Совместные результаты с NVIDIA меняют эту картину: программный стек становится таким же значимым фактором, как и оборудование.
Это особенно актуально в контексте роста интереса к открытым моделям вроде Llama. Компании всё активнее разворачивают их самостоятельно, а не через облачные API. И в этом случае вопрос о том, насколько эффективно конкретная программно-аппаратная связка справляется с нагрузкой, становится очень практическим – он напрямую влияет на стоимость эксплуатации.
Что остаётся за кадром
Стоит оговориться: MLPerf измеряет производительность в строго определённых условиях и на конкретных моделях. Реальные сценарии использования разнообразнее: там бывают смешанные нагрузки, нестандартные конфигурации, дополнительные требования по безопасности и надёжности. Бенчмарк – хороший ориентир, но не универсальная гарантия.
Тем не менее публикация официальных результатов в MLPerf – это осознанный шаг к прозрачности. И то, что Red Hat и NVIDIA сделали его совместно, говорит о серьёзном уровне инженерной интеграции между двумя платформами.