Опубликовано

AMD представила метод разделения GPU для параллельного запуска нескольких LLM

AMD раскрыла метод разделения одного графического процессора на изолированные области для одновременной работы различных моделей – без потерь в безопасности и производительности.

Технический контекст Инфраструктура
Источник события: AMD Время чтения: 3 – 5 минут

Когда несколько моделей нужно запустить на одном GPU, обычно они начинают конкурировать за память и вычислительные ресурсы. Это приводит к непредсказуемой производительности, задержкам и сложностям с изоляцией данных. AMD предложила подход, который позволяет физически делить GPU на несколько независимых партиций – каждая со своей памятью, своими вычислительными блоками и собственным драйвером.

Зачем вообще делить GPU

Представьте, что у вас есть мощный GPU и несколько задач. Например, одна модель обрабатывает запросы пользователей, другая занимается аналитикой, а третья – тестированием. Если запустить их все на одном устройстве без изоляции, они будут бороться за ресурсы. Одна модель может случайно занять всю память, другая – замедлиться из-за нехватки вычислительных блоков.

В многопользовательских средах это создаёт ещё одну проблему: данные одного клиента могут теоретически пересечься с данными другого. Для облачных сервисов и корпоративных систем это критично.

AMD предлагает делить GPU на партиции – физически разделённые области с собственной памятью и вычислительными ядрами. Каждая партиция работает как отдельное устройство, со своим драйвером и собственной изоляцией.

Как это работает на практике

Технология основана на возможностях ROCm – программной платформы AMD для работы с GPU. Партиционирование происходит на уровне железа: GPU делится на несколько независимых блоков, каждый из которых получает фиксированный объём памяти и определённое количество вычислительных единиц.

Проще говоря, один физический GPU превращается в несколько виртуальных. Операционная система видит их как отдельные устройства. Можно запустить на каждой партиции свою модель, свой фреймворк, даже разные версии драйверов – и они не будут мешать друг другу.

Это отличается от обычной виртуализации, где ресурсы делятся программно и могут динамически перераспределяться. Здесь разделение жёсткое: каждая партиция имеет строго определённые ресурсы, и никто другой к ним не получит доступа.

Что это даёт для запуска моделей

AMD протестировала подход на задачах инференса больших языковых моделей. Один GPU разделили на несколько партиций и запустили на каждой отдельный экземпляр модели с собственным набором данных.

Результат – предсказуемая производительность. Каждая модель работает с гарантированной скоростью, без просадок из-за соседних задач. Память изолирована, данные одной партиции физически недоступны другой. Это важно для облачных провайдеров, которые обслуживают разных клиентов на одном железе.

Ещё один плюс – гибкость в управлении ресурсами. Можно настроить партиции под конкретные задачи: одной модели выделить больше памяти, другой – больше вычислительных ядер. Если одна из задач завершилась, партицию можно переконфигурировать и использовать для чего-то другого.

Ограничения и особенности

Партиционирование – это не универсальное решение. Оно подходит для случаев, когда нужна строгая изоляция и предсказуемая производительность. Но если задачи меняются динамически, а нагрузка колеблется, жёсткое разделение может оказаться менее эффективным, чем гибкое распределение ресурсов.

Кроме того, не все GPU AMD поддерживают такое разделение. Функция доступна на определённых моделях и требует поддержки на уровне драйвера и операционной системы.

Настройка партиций – процесс не самый простой. Нужно заранее понимать, сколько ресурсов требуется каждой задаче, и правильно распределить память и вычислительные блоки. Если ошибиться, одна из партиций может оказаться недогруженной, а другая – перегруженной.

Для кого это актуально

В первую очередь – для облачных провайдеров и компаний, которые предоставляют инференс как сервис. Когда на одном сервере работают модели разных клиентов, изоляция критична. Партиционирование даёт и безопасность, и предсказуемость.

Также подход полезен для команд, которые одновременно тестируют несколько моделей или версий. Вместо того чтобы переключаться между задачами или покупать дополнительное железо, можно разделить один GPU и запустить всё параллельно.

Для исследовательских лабораторий и университетов это способ эффективнее использовать имеющееся оборудование, особенно если разные группы работают над независимыми проектами.

Что дальше

AMD продолжает развивать ROCm и возможности работы с GPU. Партиционирование – один из инструментов, который помогает адаптировать железо под реальные задачи, а не наоборот.

Пока технология больше ориентирована на корпоративный сегмент и облачные сервисы, но по мере развития инструментов и упрощения настройки она может стать доступнее для более широкого круга пользователей.

Главное, что этот подход показывает: GPU – это не монолитный ресурс, который можно только целиком использовать или не использовать. Его можно делить, настраивать и адаптировать под конкретные сценарии, сохраняя при этом производительность и безопасность.

Оригинальное название: LLM Inference Optimization Using AMD GPU Partitioning – ROCm Blogs
Дата публикации: 22 янв 2026
AMDwww.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья Как научить ИИ правильно читать арабские и еврейские PDF-файлы Следующая статья Nitro-AR: компактный трансформер для генерации изображений

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

BSC и ACAPPS разрабатывают технологии на основе искусственного интеллекта, призванные помочь глухим и слабослышащим людям эффективнее взаимодействовать с цифровыми сервисами.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться