Опубликовано 2 апреля 2026

Обучение ИИ агентов: методы Salesforce для снижения затрат

Как Salesforce обучает ИИ-агентов без огромных затрат

Salesforce AI Research рассказала, как перестраивает обучение языковых моделей в агентную эпоху – и почему старые подходы здесь уже не работают.

Исследования / Технический контекст 4 – 6 минут чтения

Источник события: Salesforce 4 – 6 минут чтения

Обучение языковых моделей через обратную связь – будь то от людей или другого ИИ – давно стало стандартом. Именно так модели учатся давать полезные, безопасные и точные ответы. Проще говоря: модель что-то делает, получает оценку и на основе этой оценки становится чуть лучше. Повторить тысячи раз – и получается выровненная, «воспитанная» модель.

Но сейчас индустрия входит в новую фазу. Модели всё чаще работают не как чат-боты, отвечающие на один вопрос, а как агенты – системы, выполняющие длинные цепочки действий: ищут информацию, запускают инструменты, принимают промежуточные решения и только потом выдают результат. И вот здесь старая схема обучения начинает давать сбои.

Обучение ИИ агентов: от простого ответа к марафону действий

Когда один шаг превращается в марафон

В классическом сценарии модель генерирует ответ – и сразу получает сигнал: хорошо или плохо. Всё быстро и понятно. В агентном сценарии между первым действием и финальным результатом могут быть десятки шагов. Модель вызвала внешний сервис, получила данные, обработала их, вызвала ещё один сервис, снова обработала – и только потом стало ясно, справилась ли она с задачей.

Это меняет всё. Обучение становится значительно дороже: нужно хранить контекст всей цепочки, оценивать не отдельный ответ, а весь путь рассуждений. Вычислительная нагрузка растёт нелинейно. А значит, исследователям нужны новые подходы – более эффективные, не требующие огромных ресурсов для каждого шага обучения.

Именно этим занялась команда Salesforce AI Research. Они описали, как перестраивают процесс обучения моделей под агентную реальность – и какие конкретные проблемы пришлось решать.

Обучение ИИ-агентов: узкие места и проблемы

Три узких места, которые замедляют обучение агентов

Исследователи выделили несколько ключевых сложностей, с которыми сталкивается обучение с подкреплением в агентном контексте.

Первое – длина контекста. Агент работает в условиях длинной истории взаимодействий. Чем дольше цепочка, тем больше информации нужно держать «в голове» при каждом шаге обучения. Это напрямую влияет на объём используемой памяти и скорость работы.

Второе – редкость и задержка сигнала вознаграждения. В обычных задачах модель получает оценку почти сразу. В агентных – финальный результат может появиться лишь спустя много шагов. Это усложняет понимание того, какие именно действия привели к успеху или провалу. Представьте, что вы пытаетесь научить кого-то готовить блюдо, но оценку «вкусно или нет» даёте только когда гость уже встал из-за стола.

Третье – стоимость одного обучающего примера. Чтобы обучить модель на одном агентном эпизоде, нужно прогнать всю цепочку действий, собрать сигналы, рассчитать градиенты. Это значительно дороже, чем обучение на отдельном ответе. При промышленных масштабах такие затраты становятся серьёзным ограничением.

Решения Salesforce для обучения ИИ агентов

Что предлагает Salesforce

Команда работает над несколькими направлениями одновременно, стараясь сделать обучение агентов более практичным – не жертвуя качеством ради скорости и не разоряясь на вычислениях.

Одна из идей – более умное управление тем, какие именно шаги агента участвуют в обучении. Не каждый промежуточный шаг одинаково полезен для сигнала обратной связи. Если научиться выбирать наиболее информативные моменты, можно существенно снизить нагрузку без потери качества обучения.

Другое направление – работа с тем, как формируется и передаётся сигнал вознаграждения. В агентных задачах его можно не ждать в самом конце, а строить промежуточные оценки – своего рода «чекпойнты», которые дают модели более частую и точную обратную связь на каждом этапе пути.

Параллельно исследуется, как лучше распределять вычисления между несколькими агентами или запусками – чтобы система могла обучаться более параллельно, не создавая узких мест.

Всё это звучит как инженерная оптимизация – и в каком-то смысле так и есть. Но за этим стоит принципиальный вопрос: сможем ли мы вообще обучать агентов на реалистичных задачах, если не решим проблему эффективности? Без этого агентный ИИ рискует остаться уделом компаний с неограниченными вычислительными бюджетами.

Значение методов Salesforce для всей индустрии ИИ

Почему это важно не только для Salesforce

Тема агентного обучения с подкреплением сейчас активна во всей индустрии. Крупные лаборатории – от OpenAI до DeepMind – так или иначе сталкиваются с теми же ограничениями. Агенты на базе языковых моделей уже используются в автоматизации бизнес-процессов, в кодировании, в исследовательских задачах. И чем сложнее задача, тем длиннее цепочка действий – а значит, тем острее проблема эффективного обучения.

При этом тема безопасности тоже не уходит на второй план. Когда агент совершает десятки действий подряд, цена ошибки возрастает – ведь одно неверное решение на раннем этапе может потянуть за собой целую цепочку последствий. Это делает аккуратную настройку обучающих сигналов не просто техническим, но и содержательным вопросом. Кстати, именно эту проблему – как не дать агенту «сломать что-нибудь» в погоне за результатом – решает отдельное направление, которое в академической среде называют безопасным обучением с подкреплением (Safe Reinforcement Learning). Его суть в том, чтобы вместе с целевой функцией обучения задавать ограничения: агент должен не просто достигать цели, но и делать это в рамках допустимого поведения.

Работа Salesforce AI Research – один из публичных примеров того, как исследовательские команды пытаются сделать агентное обучение масштабируемым. Не революция, но важный шаг к тому, чтобы ИИ-агенты стали практически применимыми инструментами – а не только впечатляющими демонстрациями на конференциях.

Актуальные вопросы и будущие вызовы в обучении ИИ агентов

Что остаётся открытым

Несмотря на прогресс, вопросов пока больше, чем ответов. Как оценивать качество агента на задачах, где нет однозначного «правильного» ответа? Как обеспечить стабильность обучения, когда внешняя среда непредсказуема? Как перенести подходы, работающие в лабораторных условиях, в реальные продукты?

Эти вопросы не уникальны для Salesforce – они стоят перед всей индустрией. И то, что крупные компании начинают открыто говорить о своих подходах к решению этих проблем, само по себе сигнал: агентная эра наступает, и к ней начинают готовиться всерьёз.

#аналитика #развитие ии #обучение ии #безопасность ии #инженерия #оптимизация обучения моделей #безопасность ии-агентов

Ссылка на публикацию: https://www.salesforce.com/blog/efficient-rl-training-agentic-era/

Оригинальное название: How Salesforce AI Research is Building Efficient RL Training for the Agentic Era

Дата публикации: 1 апр 2026

Salesforce www.salesforce.com Международная компания, интегрирующая ИИ в корпоративные платформы и системы управления данными.

Предыдущая статья AEC-Bench: как проверить готовность ИИ к работе в строительстве Следующая статья Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя

Обучение ИИ агентов: методы Salesforce для снижения затрат

Обучение ИИ агентов: от простого ответа к марафону действий

Обучение ИИ-агентов: узкие места и проблемы

Решения Salesforce для обучения ИИ агентов

Значение методов Salesforce для всей индустрии ИИ

Актуальные вопросы и будущие вызовы в обучении ИИ агентов

Связанные публикации

Обучение топовых ИИ-моделей: дешевле, чем принято считать

Обучение языковых моделей через обратную связь: verl теперь работает на видеокартах AMD

AMD показала, как обучать большие модели на своих GPU без остановок из-за сбоев

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации