Большинство корпоративных ИИ-систем сегодня работает на Kubernetes – платформе, автоматизирующей запуск и управление приложениями в облаке. Это не просто популярный инструмент, а стандарт де-факто для развертывания серьезных вычислительных нагрузок. И NVIDIA сделала шаг, который должен изменить принципы работы с видеокартами в этой экосистеме.
На конференции KubeCon Europe в Амстердаме компания объявила о передаче своего драйвера Dynamic Resource Allocation (DRA) для GPU в сообщество Kubernetes. Раньше этот компонент контролировала сама NVIDIA, теперь же он становится общим достоянием под управлением Cloud Native Computing Foundation (CNCF) – независимой организации, развивающей облачные технологии совместно с сотнями участников из разных компаний.
Представьте, что в дата-центре установлено несколько мощных серверов с GPU. Чтобы ИИ-задачи выполнялись эффективно, нужно гибко распределять ресурсы между ними: одной задаче выделить больше памяти, другой – обеспечить прямое соединение между картами, третьей – позволить запустить несколько процессов на одном GPU одновременно. Именно этими задачами занимается DRA-драйвер.
Проще говоря, это прослойка между Kubernetes и оборудованием, которая позволяет платформе определять потребности конкретной задачи и выделять ей ровно столько вычислительных ресурсов, сколько требуется – не больше и не меньше.
Среди открывающихся возможностей: более интеллектуальное совместное использование GPU несколькими задачами, поддержка соединения узлов для обучения по-настоящему больших моделей, а также изменение конфигурации ресурсов прямо во время работы без остановки процессов.
От «нашего» к «общему»
Передача такого компонента под управление сообщества – это не просто жест доброй воли, а решение с конкретной логикой.
Пока драйвер принадлежал NVIDIA, только компания решала, в каком направлении он будет развиваться. Теперь в его совершенствование смогут вносить вклад разработчики из разных организаций – Amazon Web Services, Google Cloud, Microsoft, Red Hat, Broadcom, Canonical, Nutanix, SUSE и других. Это обеспечит более быструю адаптацию к реальным потребностям рынка и уменьшит зависимость от одного поставщика.
"Тесное сотрудничество NVIDIA с сообществом Kubernetes и CNCF по переводу DRA-драйвера для GPU в общий доступ – это важная веха для открытого Kubernetes и ИИ-инфраструктуры", – отметил Крис Анищик, технический директор CNCF. "Благодаря тому, что NVIDIA синхронизирует свои аппаратные инновации с усилиями Kubernetes, высокопроизводительная оркестрация GPU становится доступной для всех".
Для разработчиков это означает, что стандартный инструментарий Kubernetes теперь будет поддерживать GPU «из коробки» – без необходимости искать проприетарные решения или создавать обходные механизмы.
Безопасность для критически важных задач
Параллельно с передачей драйвера NVIDIA совместно с сообществом CNCF добавила поддержку GPU в так называемые конфиденциальные контейнеры. Эта технология позволяет запускать рабочие процессы в изолированной среде с усиленной защитой – так, что даже оператор облачной платформы не имеет доступа к обрабатываемым данным.
Для организаций, работающих с персональными данными, медицинскими записями или иной чувствительной информацией, это открывает возможность использовать мощь GPU-ускорения без компромиссов в области безопасности.
Еще несколько открытых проектов
Помимо передачи DRA-драйвера, на KubeCon Europe состоялось еще несколько анонсов.
Планировщик задач KAI Scheduler принят в статус проекта-песочницы CNCF – это первый официальный шаг к тому, чтобы он стал полноценной частью облачной экосистемы. Планировщик отвечает за распределение задач между GPU-ресурсами в кластере, и его передача сообществу должна способствовать более широкому применению инструмента.
Также NVIDIA анонсировала Grove – открытый инструмент для оркестрации ИИ-нагрузок на GPU-кластерах в Kubernetes. Он позволяет описывать сложные системы инференса в одном декларативном файле, что удобнее ручной настройки каждого компонента в отдельности.
Отдельного внимания заслуживает упоминание ЦЕРН: физики, анализирующие петабайты данных о частицах, также используют инфраструктуру, построенную на этих принципах. По словам представителя ЦЕРН, открытые инструменты напрямую влияют на скорость научных открытий – от детектирования событий до обработки результатов с помощью машинного обучения.
Почему это важно за пределами корпоративного мира
Случаи, когда крупная технологическая компания передает значимый компонент своей инфраструктуры в открытое сообщество, происходят нечасто. Обычно такие шаги предпринимаются, когда создание общепринятого стандарта выгоднее, чем удержание контроля над нишевым решением.
Для рынка в целом это означает, что базовые инструменты для работы с GPU в облаке будут развиваться быстрее и станут менее зависимыми от решений одного производителя. Для разработчиков же порог входа в сферу высокопроизводительных ИИ-систем продолжает снижаться.
Открытым остается вопрос о том, насколько активно сообщество включится в развитие переданных компонентов. Пока участие таких игроков, как Red Hat, Google Cloud и AWS, выглядит убедительно, но реальную динамику покажет время.