Опубликовано

Как LinkedIn обучал свой кодогенерирующий GPT-OSS с помощью агентного обучения с подкреплением

Команда LinkedIn поделилась опытом применения обучения с подкреплением к модели для работы с открытым исходным кодом и рассказала, с какими сложностями столкнулась в процессе.

Технический контекст Разработка
Источник события: Hugging Face Время чтения: 4 – 5 минут

LinkedIn поделился опытом обучения своей модели GPT-OSS – системы, которая помогает разработчикам работать с открытым исходным кодом. Если коротко: они применили метод обучения с подкреплением (RL), но не классический, а так называемый «агентный». Это значит, что модель не просто учится генерировать текст, а выполняет последовательность действий в реальной среде – например, читает репозитории, предлагает правки, тестирует код.

Команда опубликовала подробный разбор того, как всё это работало на практике. И что важно – они говорят не только о том, что получилось, но и о том, где произошли сложности. Это полезно, потому что обучение с подкреплением в реальных задачах всё ещё остаётся сложным процессом, особенно когда речь идёт о коде.

Что такое агентное RL и зачем оно здесь

Обычно большие языковые модели обучают так: показывают им много текста, а потом дообучают на примерах с разметкой (supervised fine-tuning). Это работает, но у метода есть ограничение – модель учится на готовых ответах, а не на том, что реально работает в среде.

Обучение с подкреплением позволяет модели пробовать разные варианты, получать обратную связь (награду или штраф) и улучшаться на основе результата. В случае с кодом это особенно полезно: можно запустить код, проверить, работает ли он, и на основе этого скорректировать поведение модели.

В GPT-OSS модель действует как агент: она анализирует репозиторий, генерирует код или предложения по его изменению, а затем получает обратную связь – например, прошли ли тесты, собрался ли проект. Это и есть агентный подход: модель взаимодействует с окружением, а не просто предсказывает следующий токен.

С чем столкнулись на практике 🛠️

LinkedIn честно описывает сложности. Одна из главных – нестабильность обучения. Процессы обучения с подкреплением могут вести себя непредсказуемо: модель может начать выдавать хорошие результаты, а потом резко «забыть» то, чему научилась. Это связано с тем, как работает обновление весов: если среда меняется или награда сформулирована неточно, модель может отклониться от правильного пути.

Ещё одна проблема – вычислительная стоимость. Обучение с подкреплением требует множества запусков модели в реальной среде. В случае с кодом это значит, что нужно постоянно запускать тесты, собирать проекты, проверять зависимости. Всё это занимает время и ресурсы. Команда пишет, что им пришлось серьёзно оптимизировать инфраструктуру, чтобы это всё работало в разумные сроки.

Третий момент – формулировка функции награды. Нужно чётко определить, что считается «хорошим» поведением модели. Если просто проверять, работает ли код, можно получить решения, которые формально корректны, но бесполезны или слишком простые. Поэтому LinkedIn добавил несколько критериев: качество кода, его читаемость, соответствие стилю проекта. Но каждый новый критерий усложняет обучение.

Что в итоге получилось

Несмотря на сложности, результат есть. Модель научилась лучше понимать контекст репозиториев, предлагать более релевантные изменения и реже ломать существующий код. LinkedIn пишет, что агентное обучение с подкреплением дало заметное улучшение по сравнению с базовой моделью (baseline-моделью), обученной только на размеченных данных.

Особенно заметен эффект в ситуациях, где нужно учитывать сложные зависимости внутри проекта – например, когда изменение одного модуля влияет на другие. Модель научилась это отслеживать, потому что получала обратную связь не только по локальному участку кода, но и по всему проекту в целом.

Что остаётся открытым

Команда честно признаёт: метод работает, но пока не масштабируется легко. Чтобы применить его к новому типу задач, нужно заново настраивать среду, функцию награды, инфраструктуру. Это не универсальное решение, которое можно взять и применить где угодно.

Ещё один вопрос – как сделать обучение более стабильным. LinkedIn экспериментировал с разными подходами: менял частоту обновлений, пробовал разные алгоритмы (PPO, REINFORCE), добавлял регуляризацию. Но идеального рецепта пока нет. Каждый проект требует подстройки.

И наконец, остаётся вопрос интерпретируемости (понятности). Когда модель обучается с подкреплением, не всегда понятно, почему она приняла то или иное решение. Это нормально для RL, но в случае с кодом хотелось бы большей прозрачности – особенно если модель будет использоваться в продакшене.

Зачем это важно

Публикация LinkedIn интересна не результатами как таковыми, а тем, что они открыто делятся опытом. Агентное обучение с подкреплением для кода – это не новая идея, но реальных кейсов, где это применяется в промышленных масштабах, пока мало. И ещё меньше тех, кто готов рассказать, что именно не работает и почему.

Для тех, кто работает с кодогенерацией или пытается научить модели взаимодействовать со сложными средами, этот опыт может быть полезен. Он показывает, что обучение с подкреплением – это не волшебная таблетка, но при правильной настройке может дать результат, которого сложно добиться другими способами.

В целом, материал LinkedIn – это хороший пример того, как должны выглядеть технические разборы: без лишнего пафоса, но с конкретикой и честностью. Если вы работаете с моделями, которые должны действовать в реальной среде, стоит изучить их подход.

Ссылка на публикацию: https://huggingface.co/blog/LinkedIn/gpt-oss-agentic-rl
Оригинальное название: Unlocking Agentic RL Training for GPT-OSS: A Practical Retrospective
Дата публикации: 27 янв 2026
Hugging Facehuggingface.co Американская открытая платформа и компания для хостинга, обучения и распространения ИИ-моделей.
Предыдущая статья Lucy 2.0: видеоредактор, который работает в реальном времени Следующая статья Как оценить понимание языковыми моделями эмиратского диалекта арабского

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться