Обычно, когда мы говорим, что ИИ-модель «обучена» чему-либо, подразумевается, что она прошла долгий и ресурсоёмкий процесс тренировки, в результате которого в ней зафиксировались определённые числовые параметры. Эти параметры и есть, упрощённо говоря, её «знания» и «навыки». Изменить их означает либо заново обучить модель, либо провести так называемое дообучение (fine-tuning): взять готовую модель и дополнительно прогнать через неё обучающие примеры, чтобы она «запомнила» новую специфику задачи.
Проблема в том, что и то, и другое дорого, медленно и требует значительных вычислительных ресурсов. Поэтому исследователи давно ищут способы сделать модели более гибкими без полного переобучения. Команда Tencent Hunyuan, кажется, нашла один из таких способов и назвала его HY-WU (в оригинале – «混元无相», что можно перевести как «Бесформенный Хуньюань»).
Идея: не менять модель, а дать ей временный «переключатель»
Суть подхода такова: вместо того чтобы изменять параметры модели заранее (до начала работы), система генерирует их прямо в процессе, в реальном времени, под конкретную задачу. Проще говоря, модель получает нечто вроде временной «надстройки», которая точечно корректирует её поведение именно для той задачи, которую она сейчас решает.
Если представить аналогию: обычное дообучение – это переписать учебник. А подход HY-WU – это дать студенту шпаргалку перед конкретным экзаменом. Учебник не меняется, но ответы становятся точнее.
Технически это реализуется через отдельную небольшую модель, которая «смотрит» на запрос или контекст задачи и на лету генерирует поправочные параметры для основной модели. Основная модель остаётся неизменной: меняется только то, как она «настроена» в данный момент.
Зачем это нужно, если есть дообучение?
Дообучение (fine-tuning) работает хорошо, но у него есть несколько ограничений. Во-первых, оно требует времени и ресурсов: нужно подготовить обучающий набор данных, запустить тренировку, дождаться результата. Во-вторых, после дообучения модель «забывает» часть того, что умела раньше, – это явление называют катастрофическим забыванием.
HY-WU обходит эти ограничения: основная модель не изменяется, а значит, её базовые способности никуда не деваются. При этом адаптация под новую задачу происходит быстро, без дополнительного обучения.
Это особенно важно, если нужно, чтобы одна и та же базовая модель хорошо справлялась с очень разными задачами. Например, редактировала изображения в разных стилях, следовала разным наборам инструкций или работала в различных предметных областях.
Как это проверяли и что получилось
Команда Tencent Hunyuan применила HY-WU к задачам графического редактирования, а именно к работе с изображениями. Они взяли несколько открытых базовых моделей (open-source), которые уже умеют редактировать картинки, и «навесили» на них механизм HY-WU.
Результаты оказались обнадёживающими: модели начали лучше понимать содержимое изображений, точнее следовать инструкциям (например, «сделай фон белым» или «добавь снег на задний план») и в целом генерировали более качественный результат.
При этом важно, что базовые модели не переобучались: они просто получали динамически сгенерированные параметры в момент работы. По сути, HY-WU расширил то, что исследователи называют «функциональной памятью» модели, – её способность применять нужные знания именно там и тогда, где это требуется.
Новая парадигма или просто новый инструмент?
Сами авторы называют это «новой парадигмой», и в этом есть доля правды. Идея генерировать параметры модели динамически, под конкретный контекст, действительно отличается от привычных подходов к адаптации ИИ. Большинство существующих методов либо меняют модель до начала работы (дообучение), либо дают ей дополнительный контекст в виде текста (как в случае с подсказками, или prompt engineering). HY-WU предлагает третий путь: менять не текстовый вход, а сами параметры, но делать это на лету.
Вместе с тем нужно понимать, что пока это исследовательская работа, а не готовый продукт. Подход проверен в конкретной области (графическое редактирование), и насколько хорошо он масштабируется на другие задачи, – вопрос, который ещё предстоит изучить.
Открытым остаётся и вопрос о том, насколько сложно внедрять такой механизм в уже существующие системы, и какова вычислительная стоимость самой генерации параметров: ведь маленькая «вспомогательная» модель тоже требует ресурсов.
Что это значит в более широком контексте
За последние пару лет в области адаптации ИИ-моделей наметился чёткий тренд: исследователи всё больше хотят получить гибкость без затрат на полное переобучение. Появляются методы, которые позволяют точечно менять поведение модели – через небольшие «патчи», адаптеры, специальные векторы в пространстве активаций. HY-WU вписывается в эту логику, но делает ставку на динамическую генерацию параметров, что само по себе нетривиально.
Если этот подход удастся масштабировать и адаптировать к другим типам задач – текстовым, мультимодальным, агентным, – он может стать ещё одним инструментом в арсенале тех, кто строит прикладные системы на базе больших моделей. Не заменой существующим методам, а полезным дополнением, особенно там, где нужна быстрая адаптация без потери базовых способностей модели.
Пока это только начало разговора. Но начало интересное.