Опубликовано 22 января 2026

Как обучают агентные модели после базовой тренировки

MiniMax рассказала о своём подходе к дообучению языковых моделей, которые умеют не только отвечать, но и выполнять сложные задачи через взаимодействие с инструментами.

Разработка / Технический контекст 5 – 7 минут чтения

Источник события: MiniMax 5 – 7 минут чтения

Когда мы говорим об ИИ-агентах – моделях, которые не просто отвечают на вопросы, а выполняют сложные задачи через цепочки действий – важен не только базовый интеллект. Нужно ещё научить модель правильно пользоваться инструментами, планировать шаги и не терять фокус на протяжении длинного диалога.

Команда MiniMax опубликовала подробный разбор своего подхода к пост-тренингу (англ. post-training) агентных моделей. Если кратко: после того как модель прошла базовое обучение на текстовых данных, её дополнительно настраивают так, чтобы она могла работать как агент – с вызовами функций, использованием внешних API и многошаговым планированием.

Что такое пост-тренинг и зачем он нужен

Что такое пост-тренинг и зачем он нужен 🔧

Базовая модель умеет генерировать текст, отвечать на вопросы, рассуждать. Но чтобы она стала полезным агентом, её нужно научить:

понимать, когда стоит вызвать внешний инструмент (например, поиск, калькулятор или API);
корректно формировать запросы к этим инструментам;
интерпретировать результаты и встраивать их в дальнейшую логику;
планировать последовательность действий для решения сложной задачи.

Именно этим занимается пост-тренинг. В MiniMax используют несколько этапов: supervised fine-tuning (SFT), reinforcement learning (RL) и их комбинации. Цель – сделать модель не просто умной, а ещё и практически применимой в реальных сценариях.