Опубликовано

Как запустить ИИ-агента для программирования на видеокартах AMD Instinct

AMD показала, как развернуть OpenHands – агента для автоматизации написания кода – на своих серверных графических процессорах (GPU) с использованием движка vLLM.

Технический контекст Инфраструктура
Источник события: AMD Время чтения: 2 – 3 минуты

AMD опубликовала техническое руководство по развёртыванию OpenHands на своих серверных видеокартах Instinct. OpenHands – это агент на базе больших языковых моделей, который помогает автоматизировать задачи разработчиков: пишет код, исправляет ошибки, работает с репозиториями.

Что такое OpenHands и зачем он нужен

Проще говоря, OpenHands – это не просто чат-бот для ответов на вопросы. Это агент, который может выполнять последовательность действий: открыть файл, отредактировать его, запустить тесты, зафиксировать изменения. Он работает как виртуальный помощник программиста, способный брать на себя рутинные задачи.

Для работы такому агенту нужна языковая модель – в данном случае AMD использует Qwen3-Coder-30B-A3B-Instruct, специализированную модель для генерации кода. А чтобы модель быстро обрабатывала запросы, её запускают через vLLM – движок для ускоренного инференса на GPU (вычислений на графическом процессоре).

Как это работает на практике 🔧

AMD показала базовую команду для запуска модели на своих видеокартах Instinct:

vllm serve Qwen/Qwen3-Coder-30B-A3B-Instruct --max-model-len 32000 --enable-auto-tool

Здесь несколько важных деталей. Параметр max-model-len ограничивает длину контекста – в данном случае 32 тысячи токенов. Это значит, что агент может работать с достаточно большими фрагментами кода или документации за один запрос.

Флаг enable-auto-tool активирует поддержку инструментов – механизм, позволяющий модели не просто генерировать текст, а вызывать функции: читать файлы, выполнять команды в терминале, обращаться к API.

После того как vLLM запущен на GPU, OpenHands подключается к нему как к обычному серверу инференса и начинает отправлять запросы.

Почему AMD делает акцент на этом

Для AMD это часть более широкой стратегии – показать, что их серверные GPU Instinct могут работать не только с обучением моделей, но и с инференсом в продакшене (эксплуатации). Особенно в таких требовательных сценариях, как агенты для разработчиков, где важна не только скорость, но и стабильность работы.

vLLM изначально разрабатывался с прицелом на NVIDIA, но активно портируется на другие платформы, включая AMD ROCm. Публикация AMD – это сигнал разработчикам: да, вы можете использовать те же инструменты, что и на NVIDIA, просто на другом «железе».

Что остаётся за кадром

Руководство технического характера, поэтому AMD не раскрывает некоторых практических деталей. Например, насколько стабильно работает vLLM на ROCm в сравнении с CUDA, есть ли проблемы с совместимостью, какие модели поддерживаются лучше, а какие – хуже.

Также неясно, насколько быстро работает Qwen3-Coder-30B на Instinct в реальных задачах – AMD не приводит бенчмарков (тестов производительности). Для разработчиков, которые выбирают между платформами, это важная информация.

Тем не менее, сам факт публикации подобного руководства говорит о том, что экосистема инструментов для ИИ-агентов на AMD постепенно созревает. Если раньше выбор GPU для инференса крупных моделей был почти безальтернативным, то сейчас появляется больше вариантов – и это в целом хорошо для рынка.

Оригинальное название: Deploying OpenHands Coding Agents on AMD Instinct GPUs
Дата публикации: 28 янв 2026
AMDwww.amd.com Международная компания – производитель процессоров и вычислительных ускорителей для ИИ-задач.
Предыдущая статья MiniMax-M2-her: как работает голосовая модель, которая говорит на 39 языках Следующая статья Trinity Large: что внутри и почему Arcee выпустила три версии одной модели

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться