Существует отраслевой тест для ИИ-систем – MLPerf Inference. Если коротко, это своего рода официальный зачёт: компании берут реальные модели, запускают их на своём оборудовании и публикуют результаты в открытом виде. Никаких закрытых демонстраций – только цифры, которые можно сравнить. Раунды проходят несколько раз в год, и каждый новый выпуск показывает прогресс индустрии.
В шестом раунде – MLPerf Inference v6.0 – Red Hat AI заняла первые строчки сразу в нескольких категориях. Это само по себе примечательно, потому что обычно в лидерах находятся производители оборудования. Здесь же на первый план вышла компания, которая делает ставку на программный стек и открытые инструменты.
Три модели, три истории
Red Hat AI тестировала сразу три модели, причём разного профиля.
Первая – Whisper. Это модель для распознавания речи: она переводит аудио в текст. Задача кажется простой, но на практике требует быстрой обработки потока данных, особенно если запросы поступают непрерывно. Именно в этой категории Red Hat показала один из лучших результатов.
Вторая – Qwen3-VL. Это мультимодальная модель: она умеет работать одновременно не только с текстом, но и с изображениями. Проще говоря, можно показать ей картинку и задать вопрос – она поймёт и то, и другое. Такие модели сложнее в обслуживании, потому что им нужно согласованно обрабатывать разные типы данных.
Третья – GPT-OSS-120B. Это крупная языковая модель с открытыми весами на 120 миллиардов параметров. Чем больше параметров – тем выше требования к памяти и скорости. Удержать такую модель в приемлемых рамках по задержке и пропускной способности – нетривиальная инженерная задача.
Почему это не просто «хорошие показатели»
Разные участники MLPerf часто оптимизируют под конкретный тест: берут одну модель, одно оборудование, один сценарий – и выжимают максимум именно там. Red Hat пошла немного другим путём: три разные модели, два разных производителя GPU – NVIDIA и AMD – и при этом единый программный подход.
Это важно, потому что в реальных развёртываниях компании редко функционируют в идеально однородной инфраструктуре. Кто-то использует NVIDIA, кто-то начинает рассматривать AMD как альтернативу. Если ваш инструментарий нормально работает на обоих – это уже практическое преимущество, а не только строчка в пресс-релизе.
Как это работало под капотом – ровно столько, сколько нужно знать
Red Hat AI использовала vLLM – это движок для запуска больших языковых моделей, оптимизированный под высокую пропускную способность. Он умеет эффективно распределять память и обрабатывать множество запросов параллельно, не теряя в скорости.
Помимо этого, применялся llm-d – распределённый планировщик запросов, который позволяет масштабировать инференс горизонтально: проще говоря, распределять нагрузку по нескольким узлам без ручной настройки каждого из них.
Всё это работало поверх OpenShift AI – платформы для запуска ИИ-задач в корпоративных средах. Её роль здесь – не столько само по себе ускорение, сколько возможность воспроизводимо и управляемо разворачивать такие системы в реальных условиях, а не только в лабораторных.
Проще говоря: команда не изобретала специализированные решения ради красивых цифр в бенчмарке – она использовала тот же стек, который применяется в реальных продуктах. Это несколько меняет смысл результата: это не «синтетический рекорд», а демонстрация того, что работающие инструменты действительно конкурентоспособны.
Открытость как стратегия
Отдельный момент, который стоит отметить: все компоненты, использованные Red Hat, – открытые. vLLM, llm-d, модели – это не проприетарные разработки, закрытые внутри компании. Участие в MLPerf с открытым стеком – это и демонстрация возможностей, и своего рода аргумент в пользу того, что open source в ИИ-инфраструктуре перестал быть «бюджетным вариантом».
Для индустрии это не мелочь. Долгое время негласным стандартом было: хочешь лучшую производительность – используй закрытые решения, оптимизированные под конкретное оборудование. Результаты вроде этого постепенно размывают эту границу.
Что остаётся за кадром
MLPerf – хороший ориентир, но не абсолютная истина. Тест измеряет производительность в строго определённых условиях: конкретные модели, конкретные сценарии нагрузки, конкретные метрики. В реальных системах условия всегда другие – другие запросы, другие профили использования, другие ограничения.
Кроме того, оптимизация под бенчмарк и оптимизация под продакшн – не одно и то же. Команды, участвующие в MLPerf, знают правила игры и готовятся к ним. Насколько те же результаты воспроизводятся в «дикой природе» – отдельный вопрос, на который ни один тест не даёт окончательного ответа.
Тем не менее MLPerf остаётся одним из немногих мест, где можно честно сравнить подходы в более-менее контролируемых условиях. И появление там Red Hat AI с открытым стеком на нескольких моделях и двух платформах GPU – это как минимум сигнал, что направление выбрано не случайно.