Опубликовано

Как обучают агентные модели после базовой тренировки

MiniMax рассказала о своём подходе к дообучению языковых моделей, которые умеют не только отвечать, но и выполнять сложные задачи через взаимодействие с инструментами.

Технический контекст Разработка
Источник события: MiniMax Время чтения: 5 – 7 минут

Когда мы говорим об ИИ-агентах – моделях, которые не просто отвечают на вопросы, а выполняют сложные задачи через цепочки действий – важен не только базовый интеллект. Нужно ещё научить модель правильно пользоваться инструментами, планировать шаги и не терять фокус на протяжении длинного диалога.

Команда MiniMax опубликовала подробный разбор своего подхода к пост-тренингу (англ. post-training) агентных моделей. Если кратко: после того как модель прошла базовое обучение на текстовых данных, её дополнительно настраивают так, чтобы она могла работать как агент – с вызовами функций, использованием внешних API и многошаговым планированием.

Что такое пост-тренинг и зачем он нужен 🔧

Базовая модель умеет генерировать текст, отвечать на вопросы, рассуждать. Но чтобы она стала полезным агентом, её нужно научить:

  • понимать, когда стоит вызвать внешний инструмент (например, поиск, калькулятор или API);
  • корректно формировать запросы к этим инструментам;
  • интерпретировать результаты и встраивать их в дальнейшую логику;
  • планировать последовательность действий для решения сложной задачи.

Именно этим занимается пост-тренинг. В MiniMax используют несколько этапов: supervised fine-tuning (SFT), reinforcement learning (RL) и их комбинации. Цель – сделать модель не просто умной, а ещё и практически применимой в реальных сценариях.

Как собирают данные для обучения агента

Одна из ключевых сложностей – получить качественные примеры того, как агент должен работать. MiniMax использует несколько источников:

Синтетические данные. Модель сама генерирует примеры использования инструментов, а затем эти примеры фильтруются и проверяются. Это позволяет быстро масштабировать набор данных (датасет), но требует тщательного контроля качества.

Данные от пользователей. Реальные диалоги и запросы помогают понять, какие задачи чаще всего встречаются на практике. Здесь важна анонимизация и фильтрация – не все пользовательские запросы подходят для обучения.

Разметка экспертами. Для сложных сценариев привлекают людей, которые вручную размечают правильные последовательности действий. Это дорого, но даёт высококачественные примеры.

MiniMax отмечает, что баланс между этими источниками критически важен. Слишком много синтетических данных – модель может переобучиться на искусственных паттернах. Слишком много реальных данных без фильтрации – появляется шум и ошибки.

Supervised Fine-Tuning: учим на примерах

На первом этапе модель учится на размеченных примерах. Ей показывают: вот задача, вот правильная последовательность шагов, вот как должен выглядеть ответ.

Здесь важно не просто «скормить» модели побольше данных. Нужно следить за разнообразием задач, за тем, чтобы примеры покрывали разные типы инструментов и сценариев. MiniMax использует curriculum learning – сначала простые задачи, затем постепенно усложняют их.

Ещё один момент: форматирование. Агентные модели работают со структурированными вызовами функций – JSON-объектами, специальными токенами. Ошибка в формате может сломать всю цепочку действий, поэтому на этапе SFT модель тренируют строго следовать нужному синтаксису.

Reinforcement Learning: учим через награды 🎯

После SFT модель уже умеет вызывать функции и следовать примерам. Но она ещё не оптимальна – может выбирать неэффективные пути, делать лишние шаги или иногда ошибаться в планировании.

Для доводки используют обучение с подкреплением (reinforcement learning). Модель получает задачу, пытается её решить, а затем получает награду в зависимости от результата. Если задача решена правильно и эффективно – награда высокая. Если ошибка или слишком много лишних действий – низкая.

MiniMax экспериментировала с разными функциями награды. Оказалось, что важно учитывать не только конечный результат, но и промежуточные шаги. Например, если модель вызвала правильный инструмент, но сформулировала запрос не совсем точно – это тоже нужно учитывать в награде.

Ещё одна проблема RL – нестабильность. Модель может внезапно «разучиться» делать то, что умела раньше, если слишком агрессивно оптимизировать одну метрику. Поэтому используют такие техники, как reward shaping и KL-penalty, чтобы модель не уходила слишком далеко от исходного поведения.

Что с длинными цепочками действий

Одна из главных сложностей агентов – работа с многошаговыми задачами. Представьте: нужно найти информацию в интернете, обработать её, вызвать API, проанализировать результат и дать ответ. Это может занять десятки шагов.

Чем длиннее цепочка, тем выше вероятность ошибки. MiniMax обнаружила, что модели часто «теряют нить» на длинных задачах – забывают промежуточные результаты или начинают повторять одни и те же действия.

Чтобы решить это, они добавили специальные техники:

  • Промежуточные чекпойнты. Модель периодически «резюмирует» текущее состояние задачи – что уже сделано, что осталось.
  • Явное планирование (explicit planning). Перед началом выполнения модель сначала генерирует план действий, а потом следует ему. Это помогает не потеряться в процессе.
  • Восстановление после ошибки (error recovery). Если модель понимает, что совершила ошибку, она может откатиться назад и попробовать другой путь.

Эти механизмы не всегда нужны для простых задач, но критически важны для сложных сценариев.

Оценка качества: как понять, что агент работает хорошо

С обычными языковыми моделями всё относительно понятно – есть бенчмарки, метрики вроде perplexity, человеческая оценка. С агентами сложнее.

Нужно оценивать не только качество финального ответа, но и:

  • правильность выбора инструментов;
  • эффективность последовательности действий;
  • корректность формирования запросов к API;
  • способность справляться с неожиданными ситуациями (например, когда API вернул ошибку).

MiniMax использует комбинацию автоматических метрик и человеческой оценки. Автоматика проверяет формальную корректность – правильный формат вызовов, отсутствие синтаксических ошибок. Люди оценивают осмысленность действий и качество решения задачи.

Ещё один важный момент – стресс-тестирование. Агента проверяют на краевые случаи (edge cases): неполная информация, противоречивые данные, недоступность инструментов. Как модель поведёт себя, если поисковый API вдруг вернёт пустой результат? Сломается или попробует другой подход?

Что дальше

MiniMax видит несколько направлений развития агентных моделей:

Мультимодальность. Сейчас большинство агентов работают с текстом. Но задачи часто требуют обработки изображений, видео, аудио. Нужны модели, которые могут естественно работать с разными типами данных.

Персонализация. Агент должен учитывать контекст пользователя, его предпочтения, историю взаимодействий. Это требует новых подходов к обучению и хранению долговременной памяти.

Безопасность. Агенты, которые могут вызывать внешние API и выполнять действия в реальном мире, несут риски. Нужны механизмы контроля, чтобы модель не сделала что-то нежелательное.

Пост-тренинг агентных моделей – это не просто дообучение на дополнительных данных. Это отдельная инженерная задача со своими вызовами: от сбора качественных примеров до стабилизации обучения с подкреплением. Но результат того стоит – модели, которые не просто говорят, а действительно помогают решать задачи.

Оригинальное название: Post-Training Experience and Insights for Agent Models
Дата публикации: 21 янв 2026
MiniMaxwww.minimax.io Китайская ИИ-компания, создающая большие языковые и мультимодальные модели для диалогов и генерации контента.
Предыдущая статья Как 20 тысяч разработчиков Salesforce перешли на Cursor и что из этого вышло Следующая статья Как «усыпление» данных помогает экономить при обучении ИИ

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

BSC и ACAPPS разрабатывают технологии на основе искусственного интеллекта, призванные помочь глухим и слабослышащим людям эффективнее взаимодействовать с цифровыми сервисами.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться