Обучение с подкреплением (RL) – один из ключевых методов, благодаря которым современные языковые модели становятся умнее и полезнее после базового обучения. Именно этот этап «доводки» отвечает за то, чтобы модель не просто генерировала текст, а делала это разумно: следовала инструкциям, избегала некорректных ответов, решала задачи последовательно. Проще говоря, RL – это то, что превращает «знающую» модель в «полезную».
До недавнего времени инфраструктура для такого обучения была практически полностью заточена под GPU от NVIDIA. Фреймворк Miles – один из наиболее продвинутых инструментов для крупномасштабного RL-обучения – не был исключением. Команда LMSYS совместно с AMD изменила это: теперь Miles официально поддерживает GPU серии AMD Instinct, работающие на платформе ROCm.
Что такое Miles и почему он важен
Miles – это система для так называемого дообучения (post-training) уже готовых языковых моделей с помощью обучения с подкреплением. Именно такой подход используется при создании моделей-«рассуждателей» – тех, что шаг за шагом анализируют задачу, прежде чем дать ответ.
Главная особенность Miles – способность работать в распределённом режиме: обучение может идти одновременно на множестве GPU, разбросанных по нескольким серверам. Это критически важно при работе с большими моделями, которые просто не помещаются на один ускоритель.
До этого момента такой уровень масштабирования был доступен преимущественно на оборудовании NVIDIA. Поддержка AMD меняет эту ситуацию.
Технически – почти без потерь
Адаптация под ROCm потребовала серьёзной инженерной работы. Платформа AMD устроена иначе, чем CUDA от NVIDIA, и далеко не весь код переносится автоматически. Команде пришлось разобраться с совместимостью на уровне низкоуровневых операций, отладить взаимодействие между GPU разных узлов и убедиться, что производительность не снижается.
Результат оказался обнадёживающим: Miles на AMD Instinct демонстрирует сопоставимую с NVIDIA производительность при крупномасштабном RL-обучении. Это не «работает, но медленнее» – это полноценная поддержка.
Для понимания масштаба: тесты проводились на моделях типа DeepSeek-R1 – одних из самых требовательных к ресурсам открытых моделей на сегодняшний день. Именно такие модели активно используют RL при обучении и требуют слаженной работы десятков GPU одновременно.
Зачем AMD это нужно – и зачем это нужно всем остальным
AMD последовательно инвестирует в развитие своей экосистемы для ИИ-вычислений. Выход ROCm 7.1 принёс официальную поддержку MI350X и MI355X, а версия ROCm 7.2.0 заметно улучшила производительность на задачах вывода (inference) для крупных моделей. Параллельно AMD открыла исходный код ROCprof Trace Decoder – инструмента для глубокого анализа производительности GPU, который раньше оставался закрытым.
Поддержка Miles – часть той же логики. Если раньше разработчик, желающий обучить модель с помощью RL, был вынужден работать исключительно на NVIDIA, теперь у него есть реальная альтернатива.
Это важно не только для крупных компаний. Исследовательские группы, университеты и небольшие команды нередко используют то оборудование, которое доступно, а не то, которое им хочется. Расширение совместимости означает, что порог входа в серьёзное RL-обучение снижается.
Открытость как стратегия
Немаловажно, что всё это происходит в рамках открытой экосистемы. ROCm – открытая платформа, Miles разрабатывается командой LMSYS как исследовательский проект, а сама AMD активно публикует результаты тестирования и делится кодом. Например, движок ATOM, оптимизированный для вывода на MI355X, был выложен в открытый доступ на GitHub.
Такой подход – открытый код, открытые бенчмарки, открытые инструменты – постепенно меняет восприятие AMD в сообществе. Долгое время NVIDIA воспринималась как безальтернативный выбор для серьёзных ИИ-задач, во многом из-за зрелости экосистемы. Сейчас этот разрыв сокращается.
Что это меняет на практике
Если коротко: у разработчиков языковых моделей появился ещё один реально работающий вариант для крупномасштабного обучения с подкреплением – и этот вариант не зависит от NVIDIA.
Это не означает, что все немедленно перейдут на AMD. Экосистема NVIDIA по-прежнему глубже, инструментов больше, опыта у сообщества накоплено значительно больше. Но наличие рабочей альтернативы – уже само по себе ценно: оно создаёт конкуренцию, стимулирует развитие и даёт свободу выбора тем, кто в ней нуждается.
Miles на ROCm – это не анонс будущего, это работающий инструмент уже сегодня. И это, пожалуй, самое важное.