Опубликовано 2 апреля 2026

Оптимизация работы ИИ на GPU: когда одного недостаточно

Когда одного GPU мало, а денег на второй нет: новый подход к запуску ИИ в продакшене

Два новых open-source проекта предлагают способ запускать несколько ИИ-моделей на одном GPU с динамическим управлением памятью и без потери производительности.

Инфраструктура 4 – 6 минут чтения

Источник события: Red Hat 4 – 6 минут чтения

Запускать большие языковые модели в реальных условиях – задача, которая выглядит проще, чем есть на самом деле. Скачать модель, загрузить её в память видеокарты, получить ответ – звучит несложно. Но стоит перейти от экспериментов к промышленной эксплуатации, и картина резко усложняется.

Представьте: у вас несколько моделей, каждая под свою задачу. Одна отвечает на вопросы пользователей, другая обрабатывает документы, третья – генерирует код. Каждая из них занимает значительную часть видеопамяти GPU. И держать их все загруженными одновременно зачастую просто невозможно – памяти не хватает. Приходится выбирать: либо покупать дорогостоящее оборудование, либо мириться с тем, что модели будут постоянно выгружаться и загружаться заново, теряя время.

Нехватка памяти GPU для больших ИИ-моделей

Проблема, о которой не принято говорить вслух

Память GPU – ресурс дорогой и ограниченный. Большинство современных языковых моделей требуют десятки гигабайт только для базовой загрузки. Плюс к этому добавляется так называемый KV-кэш – рабочая область, в которой хранится контекст текущего разговора или задачи. Чем длиннее диалог, тем больше места он занимает.

В итоге складывается неприятная ситуация: GPU простаивает в периоды низкой нагрузки, но не может принять дополнительные модели, потому что память занята. А в пиковые моменты система начинает «захлёбываться», поскольку всё упирается в тот же лимит памяти.

Проще говоря, текущие решения плохо умеют делить ресурсы между несколькими моделями динамически – в зависимости от того, кто сейчас реально работает, а кто простаивает.

Виртуальная память для GPU в задачах ИИ

Виртуальная память – идея не новая, но для GPU почти не освоенная

В обычных компьютерах эта проблема давно решена. Операционная система использует виртуальную память: если оперативной памяти не хватает, часть данных временно уходит на диск и возвращается обратно по мере необходимости. Приложения при этом не замечают разницы – они работают так, будто памяти у них столько, сколько нужно.

Для GPU такого механизма практически не существовало. Видеокарта либо держит модель целиком, либо не держит вовсе. Никакой «подкачки», никакого динамического перераспределения между задачами.

Именно этот пробел попытались закрыть два новых open-source проекта – kvcached и Sardeenz.

kvcached и Sardeenz: новые решения для управления GPU-памятью

Что придумали в kvcached и Sardeenz

Идея, лежащая в основе обоих инструментов, по сути, является переносом концепции виртуальной памяти на GPU-окружение для ИИ-задач.

kvcached занимается управлением KV-кэшем – той самой рабочей областью, которая разрастается по ходу работы модели. Вместо того чтобы держать весь кэш на GPU, система может перемещать его фрагменты между видеопамятью, оперативной памятью и диском – в зависимости от того, насколько срочно они нужны прямо сейчас. Это позволяет обслуживать больше параллельных запросов на том же оборудовании.

Sardeenz работает на уровень выше: он управляет самими моделями. Его задача – упаковать несколько моделей на один GPU и динамически распределять между ними доступную память. Если одна модель активно используется, она получает больше ресурсов. Если другая простаивает – её можно частично «вытеснить», освободив место для соседей. При этом модель не выгружается полностью – она просто отходит на второй план и быстро возвращается, когда снова понадобится.

Помимо этого, Sardeenz включает веб-интерфейс для управления моделями: можно в реальном времени видеть, что загружено, что простаивает, и при необходимости вмешаться вручную.

Применение решений kvcached и Sardeenz

Зачем это на практике

Если у вас один мощный GPU и несколько моделей, которые нужны в разное время – например, днём активна одна, ночью другая – то без подобного инструмента вы вынуждены либо держать их все в памяти (и тратить ресурс впустую), либо перезагружать вручную (и терять время на каждую смену). Оба варианта неудобны.

С динамическим управлением памятью ситуация меняется: система сама определяет, что сейчас важно, и распределяет ресурсы соответственно. GPU при этом загружен равномернее, а значит, и стоимость инфраструктуры на единицу полезной работы снижается.

Это особенно актуально для небольших команд и компаний, которые не могут позволить себе содержать отдельный сервер под каждую модель. Или для тех, кто работает с облачными GPU, где каждый час простоя – это реальные деньги.

Перспективы развития виртуальной памяти для GPU

Пока это эксперимент, но идея оформляется

Важно понимать: оба проекта находятся на ранней стадии. Это не готовое корпоративное решение с поддержкой и гарантиями. Это open-source инструменты, которые предлагают конкретный подход к давно известной проблеме.

Сама по себе идея – перенести принципы виртуальной памяти в мир GPU-инференса – не нова в теоретическом плане. Но её практическая реализация в виде готовых, запускаемых инструментов появляется только сейчас. И это, пожалуй, главное: не открытие принципа, а появление рабочего прототипа, который можно попробовать.

Открытым остаётся вопрос производительности под реальной нагрузкой: насколько заметны задержки при перемещении кэша между уровнями памяти? Как ведёт себя система, когда все модели одновременно становятся активными? Ответы на эти вопросы появятся по мере того, как инструменты будут тестироваться в реальных условиях.

Тем не менее направление выглядит логичным. Оборудование дорожает, модели становятся тяжелее, а запросы к эффективности инфраструктуры только растут. Инструменты, которые помогают выжать больше из того, что уже есть – не покупая новые серверы, а умнее управляя существующими – будут востребованы.

#прикладной разбор #технический контекст #нейросети #инженерия #компьютерные системы #инфраструктура #масштабирование #оптимизация gpu #оптимизация инференса

Ссылка на публикацию: https://www.redhat.com/en/blog/running-llms-dynamically-production-limited-resources-hard-we-think-theres-room-another-approach

Оригинальное название: Running LLMs dynamically, in production, on limited resources, is hard. We think there's room for another approach…

Дата публикации: 2 апр 2026

Red Hat www.redhat.com Международная компания, развивающая открытые программные платформы и инфраструктурные решения с поддержкой ИИ.

Предыдущая статья TurboQuant от Google: ИИ научили экономить память Следующая статья Qwen3.6-Plus: новая модель от Alibaba на пути к настоящим ИИ-агентам

Оптимизация работы ИИ на GPU: когда одного недостаточно

Нехватка памяти GPU для больших ИИ-моделей

Виртуальная память для GPU в задачах ИИ

kvcached и Sardeenz: новые решения для управления GPU-памятью

Применение решений kvcached и Sardeenz

Перспективы развития виртуальной памяти для GPU

Связанные публикации

Как масштабировать vLLM и не допустить ошибок нехватки памяти

Как выжать максимум из AI-моделей: три подхода к ускорению инференса

Кэш как ресурс: как Alibaba Cloud учит ИИ не пересчитывать одно и то же дважды

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации