AMD опубликовала техническое руководство по развёртыванию OpenHands на своих серверных видеокартах Instinct. OpenHands – это агент на базе больших языковых моделей, который помогает автоматизировать задачи разработчиков: пишет код, исправляет ошибки, работает с репозиториями.
Что такое OpenHands и зачем он нужен
Проще говоря, OpenHands – это не просто чат-бот для ответов на вопросы. Это агент, который может выполнять последовательность действий: открыть файл, отредактировать его, запустить тесты, зафиксировать изменения. Он работает как виртуальный помощник программиста, способный брать на себя рутинные задачи.
Для работы такому агенту нужна языковая модель – в данном случае AMD использует Qwen3-Coder-30B-A3B-Instruct, специализированную модель для генерации кода. А чтобы модель быстро обрабатывала запросы, её запускают через vLLM – движок для ускоренного инференса на GPU (вычислений на графическом процессоре).
Как это работает на практике 🔧
AMD показала базовую команду для запуска модели на своих видеокартах Instinct:
vllm serve Qwen/Qwen3-Coder-30B-A3B-Instruct --max-model-len 32000 --enable-auto-tool
Здесь несколько важных деталей. Параметр max-model-len ограничивает длину контекста – в данном случае 32 тысячи токенов. Это значит, что агент может работать с достаточно большими фрагментами кода или документации за один запрос.
Флаг enable-auto-tool активирует поддержку инструментов – механизм, позволяющий модели не просто генерировать текст, а вызывать функции: читать файлы, выполнять команды в терминале, обращаться к API.
После того как vLLM запущен на GPU, OpenHands подключается к нему как к обычному серверу инференса и начинает отправлять запросы.
Почему AMD делает акцент на этом
Для AMD это часть более широкой стратегии – показать, что их серверные GPU Instinct могут работать не только с обучением моделей, но и с инференсом в продакшене (эксплуатации). Особенно в таких требовательных сценариях, как агенты для разработчиков, где важна не только скорость, но и стабильность работы.
vLLM изначально разрабатывался с прицелом на NVIDIA, но активно портируется на другие платформы, включая AMD ROCm. Публикация AMD – это сигнал разработчикам: да, вы можете использовать те же инструменты, что и на NVIDIA, просто на другом «железе».
Что остаётся за кадром
Руководство технического характера, поэтому AMD не раскрывает некоторых практических деталей. Например, насколько стабильно работает vLLM на ROCm в сравнении с CUDA, есть ли проблемы с совместимостью, какие модели поддерживаются лучше, а какие – хуже.
Также неясно, насколько быстро работает Qwen3-Coder-30B на Instinct в реальных задачах – AMD не приводит бенчмарков (тестов производительности). Для разработчиков, которые выбирают между платформами, это важная информация.
Тем не менее, сам факт публикации подобного руководства говорит о том, что экосистема инструментов для ИИ-агентов на AMD постепенно созревает. Если раньше выбор GPU для инференса крупных моделей был почти безальтернативным, то сейчас появляется больше вариантов – и это в целом хорошо для рынка.