Опубликовано 2 апреля 2026

Обучение ИИ агентов: методы Salesforce для снижения затрат

Как Salesforce обучает ИИ-агентов без огромных затрат

Salesforce AI Research рассказала, как перестраивает обучение языковых моделей в агентную эпоху – и почему старые подходы здесь уже не работают.

Исследования / Технический контекст 4 – 6 минут чтения
Источник события: Salesforce 4 – 6 минут чтения

Обучение языковых моделей через обратную связь – будь то от людей или другого ИИ – давно стало стандартом. Именно так модели учатся давать полезные, безопасные и точные ответы. Проще говоря: модель что-то делает, получает оценку и на основе этой оценки становится чуть лучше. Повторить тысячи раз – и получается выровненная, «воспитанная» модель.

Но сейчас индустрия входит в новую фазу. Модели всё чаще работают не как чат-боты, отвечающие на один вопрос, а как агенты – системы, выполняющие длинные цепочки действий: ищут информацию, запускают инструменты, принимают промежуточные решения и только потом выдают результат. И вот здесь старая схема обучения начинает давать сбои.

Обучение ИИ агентов: от простого ответа к марафону действий

Когда один шаг превращается в марафон

В классическом сценарии модель генерирует ответ – и сразу получает сигнал: хорошо или плохо. Всё быстро и понятно. В агентном сценарии между первым действием и финальным результатом могут быть десятки шагов. Модель вызвала внешний сервис, получила данные, обработала их, вызвала ещё один сервис, снова обработала – и только потом стало ясно, справилась ли она с задачей.

Это меняет всё. Обучение становится значительно дороже: нужно хранить контекст всей цепочки, оценивать не отдельный ответ, а весь путь рассуждений. Вычислительная нагрузка растёт нелинейно. А значит, исследователям нужны новые подходы – более эффективные, не требующие огромных ресурсов для каждого шага обучения.

Именно этим занялась команда Salesforce AI Research. Они описали, как перестраивают процесс обучения моделей под агентную реальность – и какие конкретные проблемы пришлось решать.

Обучение ИИ-агентов: узкие места и проблемы

Три узких места, которые замедляют обучение агентов

Исследователи выделили несколько ключевых сложностей, с которыми сталкивается обучение с подкреплением в агентном контексте.

Первое – длина контекста. Агент работает в условиях длинной истории взаимодействий. Чем дольше цепочка, тем больше информации нужно держать «в голове» при каждом шаге обучения. Это напрямую влияет на объём используемой памяти и скорость работы.

Второе – редкость и задержка сигнала вознаграждения. В обычных задачах модель получает оценку почти сразу. В агентных – финальный результат может появиться лишь спустя много шагов. Это усложняет понимание того, какие именно действия привели к успеху или провалу. Представьте, что вы пытаетесь научить кого-то готовить блюдо, но оценку «вкусно или нет» даёте только когда гость уже встал из-за стола.

Третье – стоимость одного обучающего примера. Чтобы обучить модель на одном агентном эпизоде, нужно прогнать всю цепочку действий, собрать сигналы, рассчитать градиенты. Это значительно дороже, чем обучение на отдельном ответе. При промышленных масштабах такие затраты становятся серьёзным ограничением.

Решения Salesforce для обучения ИИ агентов

Что предлагает Salesforce

Команда работает над несколькими направлениями одновременно, стараясь сделать обучение агентов более практичным – не жертвуя качеством ради скорости и не разоряясь на вычислениях.

Одна из идей – более умное управление тем, какие именно шаги агента участвуют в обучении. Не каждый промежуточный шаг одинаково полезен для сигнала обратной связи. Если научиться выбирать наиболее информативные моменты, можно существенно снизить нагрузку без потери качества обучения.

Другое направление – работа с тем, как формируется и передаётся сигнал вознаграждения. В агентных задачах его можно не ждать в самом конце, а строить промежуточные оценки – своего рода «чекпойнты», которые дают модели более частую и точную обратную связь на каждом этапе пути.

Параллельно исследуется, как лучше распределять вычисления между несколькими агентами или запусками – чтобы система могла обучаться более параллельно, не создавая узких мест.

Всё это звучит как инженерная оптимизация – и в каком-то смысле так и есть. Но за этим стоит принципиальный вопрос: сможем ли мы вообще обучать агентов на реалистичных задачах, если не решим проблему эффективности? Без этого агентный ИИ рискует остаться уделом компаний с неограниченными вычислительными бюджетами.

Значение методов Salesforce для всей индустрии ИИ

Почему это важно не только для Salesforce

Тема агентного обучения с подкреплением сейчас активна во всей индустрии. Крупные лаборатории – от OpenAI до DeepMind – так или иначе сталкиваются с теми же ограничениями. Агенты на базе языковых моделей уже используются в автоматизации бизнес-процессов, в кодировании, в исследовательских задачах. И чем сложнее задача, тем длиннее цепочка действий – а значит, тем острее проблема эффективного обучения.

При этом тема безопасности тоже не уходит на второй план. Когда агент совершает десятки действий подряд, цена ошибки возрастает – ведь одно неверное решение на раннем этапе может потянуть за собой целую цепочку последствий. Это делает аккуратную настройку обучающих сигналов не просто техническим, но и содержательным вопросом. Кстати, именно эту проблему – как не дать агенту «сломать что-нибудь» в погоне за результатом – решает отдельное направление, которое в академической среде называют безопасным обучением с подкреплением (Safe Reinforcement Learning). Его суть в том, чтобы вместе с целевой функцией обучения задавать ограничения: агент должен не просто достигать цели, но и делать это в рамках допустимого поведения.

Работа Salesforce AI Research – один из публичных примеров того, как исследовательские команды пытаются сделать агентное обучение масштабируемым. Не революция, но важный шаг к тому, чтобы ИИ-агенты стали практически применимыми инструментами – а не только впечатляющими демонстрациями на конференциях.

Актуальные вопросы и будущие вызовы в обучении ИИ агентов

Что остаётся открытым

Несмотря на прогресс, вопросов пока больше, чем ответов. Как оценивать качество агента на задачах, где нет однозначного «правильного» ответа? Как обеспечить стабильность обучения, когда внешняя среда непредсказуема? Как перенести подходы, работающие в лабораторных условиях, в реальные продукты?

Эти вопросы не уникальны для Salesforce – они стоят перед всей индустрией. И то, что крупные компании начинают открыто говорить о своих подходах к решению этих проблем, само по себе сигнал: агентная эра наступает, и к ней начинают готовиться всерьёз.

Оригинальное название: How Salesforce AI Research is Building Efficient RL Training for the Agentic Era
Дата публикации: 1 апр 2026
Salesforce www.salesforce.com Международная компания, интегрирующая ИИ в корпоративные платформы и системы управления данными.
Предыдущая статья AEC-Bench: как проверить готовность ИИ к работе в строительстве Следующая статья Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Фреймворк verl для обучения больших языковых моделей с подкреплением получил поддержку AMD ROCm 7.0.0 и расширенные возможности масштабирования.

AMDwww.amd.com 13 фев 2026

AMD интегрировала TorchFT с TorchTitan для обеспечения устойчивого обучения на GPU: теперь система способна самостоятельно восстанавливаться после ошибок и продолжать работу.

AMDwww.amd.com 12 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться