Одна из распространённых проблем при работе с большими языковыми моделями – это разрыв между «скачать и попробовать» и «реально запустить на нормальном железе». Облачные платформы постепенно устраняют этот разрыв, и AMD Developer Cloud – один из таких примеров. Недавно там появился подробный гайд по развёртыванию модели Qwen3-5 с использованием фреймворка SGLang, и это неплохой повод разобраться, что происходит и чем это может быть интересно.
Qwen3-5 – что за модель
Qwen3-5 – это языковая модель от китайской компании Alibaba, из серии Qwen3. Если говорить просто: это большая, хорошо обученная модель общего назначения, которая умеет отвечать на вопросы, писать код, рассуждать и выполнять самые разные текстовые задачи. Версия с 122 миллиардами параметров – одна из наиболее мощных в этом семействе.
Модель распространяется в открытом доступе, что делает её привлекательной для разработчиков и исследователей, которые хотят развернуть что-то серьёзное у себя, а не полностью полагаться на внешние API.
AMD Developer Cloud – это облачная платформа, которая даёт доступ к GPU-серверам на базе видеокарт AMD. Звучит просто, но в контексте ИИ это важно: большинство облачных решений для запуска моделей исторически ориентировались на железо NVIDIA. AMD активно наверстывает упущенное, и Developer Cloud – часть этих усилий.
OpenCLaw – это проект внутри экосистемы AMD, направленный на то, чтобы упростить развёртывание открытых языковых моделей на AMD-железе. Если коротко: это набор инструментов и практик, который снижает порог входа для тех, кто хочет запустить современную модель, но не хочет разбираться в тонкостях совместимости железа и программного стека с нуля.
SGLang – зачем он нужен
SGLang – это фреймворк для запуска языковых моделей в режиме сервера. Проще говоря, он превращает модель в сервис: запросы приходят, ответы уходят, всё работает как API. Это особенно важно в сценариях, где модель должна обслуживать несколько запросов одновременно – например, в приложениях или пайплайнах автоматизации.
SGLang ориентирован на производительность и поддерживает AMD-железо, что делает его логичным выбором для этой связки. В описанной конфигурации модель запускается как сервер, доступный по сети, с поддержкой авторизации и настраиваемым бэкендом для вычислений.
Как это выглядит на практике
Суть подхода – запустить контейнер (изолированную среду) с моделью и SGLang внутри, который начинает принимать запросы по заданному адресу и порту. Модель загружается в память GPU, и дальше с ней можно работать так же, как с любым другим языковым сервисом: отправлять запросы, получать ответы.
Всё это разворачивается на облачных серверах AMD, то есть не нужно иметь собственное дорогостоящее железо. Достаточно получить доступ к AMD Developer Cloud, следовать инструкции – и модель размером 122 миллиарда параметров становится доступна как локальный сервис.
Почему это интересно
Несколько лет назад запустить модель такого масштаба самостоятельно было практически нереально без специализированной инфраструктуры. Сейчас это становится всё более рутинной задачей – при наличии правильных инструментов и доступа к облаку.
Для разработчиков это означает большую независимость: можно взять открытую модель, развернуть её на контролируемой инфраструктуре, настроить под свои нужды и не платить за каждый запрос к стороннему API. Для AMD – это демонстрация того, что их платформа вполне работоспособна в сценариях, которые раньше ассоциировались исключительно с конкурирующим железом.
Остаётся ряд практических вопросов: производительность на AMD-железе по сравнению с альтернативами, удобство настройки для тех, кто не знаком с контейнерами и конфигурационными файлами, а также стоимость использования облака при длительных нагрузках. Но сам факт появления таких гайдов и их детализации – хороший знак для тех, кто делает ставку на открытые модели и альтернативное железо.