Когда мы говорим об ИИ-агентах – моделях, которые не просто отвечают на вопросы, а выполняют сложные задачи через цепочки действий – важен не только базовый интеллект. Нужно ещё научить модель правильно пользоваться инструментами, планировать шаги и не терять фокус на протяжении длинного диалога.
Команда MiniMax опубликовала подробный разбор своего подхода к пост-тренингу (англ. post-training) агентных моделей. Если кратко: после того как модель прошла базовое обучение на текстовых данных, её дополнительно настраивают так, чтобы она могла работать как агент – с вызовами функций, использованием внешних API и многошаговым планированием.
Что такое пост-тренинг и зачем он нужен 🔧
Базовая модель умеет генерировать текст, отвечать на вопросы, рассуждать. Но чтобы она стала полезным агентом, её нужно научить:
- понимать, когда стоит вызвать внешний инструмент (например, поиск, калькулятор или API);
- корректно формировать запросы к этим инструментам;
- интерпретировать результаты и встраивать их в дальнейшую логику;
- планировать последовательность действий для решения сложной задачи.
Именно этим занимается пост-тренинг. В MiniMax используют несколько этапов: supervised fine-tuning (SFT), reinforcement learning (RL) и их комбинации. Цель – сделать модель не просто умной, а ещё и практически применимой в реальных сценариях.
Как собирают данные для обучения агента
Одна из ключевых сложностей – получить качественные примеры того, как агент должен работать. MiniMax использует несколько источников:
Синтетические данные. Модель сама генерирует примеры использования инструментов, а затем эти примеры фильтруются и проверяются. Это позволяет быстро масштабировать набор данных (датасет), но требует тщательного контроля качества.
Данные от пользователей. Реальные диалоги и запросы помогают понять, какие задачи чаще всего встречаются на практике. Здесь важна анонимизация и фильтрация – не все пользовательские запросы подходят для обучения.
Разметка экспертами. Для сложных сценариев привлекают людей, которые вручную размечают правильные последовательности действий. Это дорого, но даёт высококачественные примеры.
MiniMax отмечает, что баланс между этими источниками критически важен. Слишком много синтетических данных – модель может переобучиться на искусственных паттернах. Слишком много реальных данных без фильтрации – появляется шум и ошибки.
Supervised Fine-Tuning: учим на примерах
На первом этапе модель учится на размеченных примерах. Ей показывают: вот задача, вот правильная последовательность шагов, вот как должен выглядеть ответ.
Здесь важно не просто «скормить» модели побольше данных. Нужно следить за разнообразием задач, за тем, чтобы примеры покрывали разные типы инструментов и сценариев. MiniMax использует curriculum learning – сначала простые задачи, затем постепенно усложняют их.
Ещё один момент: форматирование. Агентные модели работают со структурированными вызовами функций – JSON-объектами, специальными токенами. Ошибка в формате может сломать всю цепочку действий, поэтому на этапе SFT модель тренируют строго следовать нужному синтаксису.
Reinforcement Learning: учим через награды 🎯
После SFT модель уже умеет вызывать функции и следовать примерам. Но она ещё не оптимальна – может выбирать неэффективные пути, делать лишние шаги или иногда ошибаться в планировании.
Для доводки используют обучение с подкреплением (reinforcement learning). Модель получает задачу, пытается её решить, а затем получает награду в зависимости от результата. Если задача решена правильно и эффективно – награда высокая. Если ошибка или слишком много лишних действий – низкая.
MiniMax экспериментировала с разными функциями награды. Оказалось, что важно учитывать не только конечный результат, но и промежуточные шаги. Например, если модель вызвала правильный инструмент, но сформулировала запрос не совсем точно – это тоже нужно учитывать в награде.
Ещё одна проблема RL – нестабильность. Модель может внезапно «разучиться» делать то, что умела раньше, если слишком агрессивно оптимизировать одну метрику. Поэтому используют такие техники, как reward shaping и KL-penalty, чтобы модель не уходила слишком далеко от исходного поведения.
Что с длинными цепочками действий
Одна из главных сложностей агентов – работа с многошаговыми задачами. Представьте: нужно найти информацию в интернете, обработать её, вызвать API, проанализировать результат и дать ответ. Это может занять десятки шагов.
Чем длиннее цепочка, тем выше вероятность ошибки. MiniMax обнаружила, что модели часто «теряют нить» на длинных задачах – забывают промежуточные результаты или начинают повторять одни и те же действия.
Чтобы решить это, они добавили специальные техники:
- Промежуточные чекпойнты. Модель периодически «резюмирует» текущее состояние задачи – что уже сделано, что осталось.
- Явное планирование (explicit planning). Перед началом выполнения модель сначала генерирует план действий, а потом следует ему. Это помогает не потеряться в процессе.
- Восстановление после ошибки (error recovery). Если модель понимает, что совершила ошибку, она может откатиться назад и попробовать другой путь.
Эти механизмы не всегда нужны для простых задач, но критически важны для сложных сценариев.
Оценка качества: как понять, что агент работает хорошо
С обычными языковыми моделями всё относительно понятно – есть бенчмарки, метрики вроде perplexity, человеческая оценка. С агентами сложнее.
Нужно оценивать не только качество финального ответа, но и:
- правильность выбора инструментов;
- эффективность последовательности действий;
- корректность формирования запросов к API;
- способность справляться с неожиданными ситуациями (например, когда API вернул ошибку).
MiniMax использует комбинацию автоматических метрик и человеческой оценки. Автоматика проверяет формальную корректность – правильный формат вызовов, отсутствие синтаксических ошибок. Люди оценивают осмысленность действий и качество решения задачи.
Ещё один важный момент – стресс-тестирование. Агента проверяют на краевые случаи (edge cases): неполная информация, противоречивые данные, недоступность инструментов. Как модель поведёт себя, если поисковый API вдруг вернёт пустой результат? Сломается или попробует другой подход?
Что дальше
MiniMax видит несколько направлений развития агентных моделей:
Мультимодальность. Сейчас большинство агентов работают с текстом. Но задачи часто требуют обработки изображений, видео, аудио. Нужны модели, которые могут естественно работать с разными типами данных.
Персонализация. Агент должен учитывать контекст пользователя, его предпочтения, историю взаимодействий. Это требует новых подходов к обучению и хранению долговременной памяти.
Безопасность. Агенты, которые могут вызывать внешние API и выполнять действия в реальном мире, несут риски. Нужны механизмы контроля, чтобы модель не сделала что-то нежелательное.
Пост-тренинг агентных моделей – это не просто дообучение на дополнительных данных. Это отдельная инженерная задача со своими вызовами: от сбора качественных примеров до стабилизации обучения с подкреплением. Но результат того стоит – модели, которые не просто говорят, а действительно помогают решать задачи.