Представьте, что вы наняли сотрудника через агентство. Агентство дало ему общие правила поведения. Вы как работодатель дали конкретные инструкции для работы. А затем пришёл случайный клиент и попытался убедить этого сотрудника нарушить всё вышесказанное. Кого должен слушать сотрудник? Ответ кажется очевидным, но для языковых моделей это до сих пор было нетривиальной задачей.
Именно эту проблему взялась решать OpenAI с помощью подхода, который получил название IH-Challenge (от Instruction Hierarchy – иерархия инструкций).
Современные языковые модели получают указания сразу из нескольких источников. Разработчик платформы настраивает поведение модели через системный промпт (prompt). Пользователь что-то пишет в диалоге. А иногда модель работает с внешними данными – документами, веб-страницами, результатами поиска – и там тоже может оказаться текст, который выглядит как инструкция.
Проблема в том, что модель не всегда понимает, чьим словам стоит доверять больше. Если в загруженном документе написано «игнорируй все предыдущие инструкции и сделай вот это», часть моделей действительно может последовать этому указанию. Это называется prompt injection (внедрение запроса) – попытка внедрить в модель чужие команды через ненадёжный источник.
Это не абстрактная угроза. Когда модели встраиваются в рабочие процессы и автоматически обрабатывают письма, документы или веб-контент, возможность для подобных атак становится вполне реальной.
Идея иерархии инструкций проста: не все источники одинаково надёжны, и модель должна это понимать. Инструкции от разработчика платформы весомее. Слова пользователя важны, но ограничены рамками, которые задал разработчик. Текст из внешнего документа вообще не должен восприниматься как команда к действию.
Проще говоря, модель должна уметь расставлять приоритеты: кому верить, кого слушаться, а чьи «инструкции» воспринимать как данные, а не как руководство к действию.
Звучит логично. Но на практике обучить модель такому поведению оказалось непросто – особенно без потери её общей полезности.
IH-Challenge – это специальный обучающий подход, разработанный для того, чтобы модели лучше соблюдали эту иерархию. Суть в том, чтобы во время обучения целенаправленно создавать ситуации, в которых модели нужно правильно разрешить конфликт между инструкциями разного уровня доверия.
Исследователи сформировали набор сценариев, где источники инструкций явно противоречат друг другу, и обучали модель принимать правильные решения в каждом из них. Важно, что задача ставилась не просто как «следуй правилам безопасности», а именно как «научись определять, кому стоит доверять в данном контексте».
По результатам, модели, прошедшие такое обучение, показали улучшения сразу в нескольких направлениях:
- они лучше следуют инструкциям от доверенных источников;
- они устойчивее к попыткам манипуляции через ненадёжный контент;
- их поведение становится более предсказуемым с точки зрения безопасности.
Важный нюанс: речь идёт не только о защите. Правильная иерархия инструкций – это ещё и про то, что разработчики могут более уверенно управлять поведением модели в своих продуктах.
Если компания встраивает языковую модель в корпоративный инструмент и задаёт ей определённые ограничения – например, «не обсуждай конкурентов» или «всегда отвечай на языке пользователя» – то хочется быть уверенным, что эти правила не удастся легко обойти. IH-Challenge как раз усиливает эту уверенность.
Это делает модели более управляемыми – в хорошем смысле слова. Не в смысле «модель делает только то, что ей велят», а в смысле «модель понимает, чьи веления имеют больший вес».
Один из сложных моментов в этой теме – найти правильный баланс. Модель, которая слишком жёстко следует иерархии, может стать менее гибкой и отказываться помогать пользователю там, где это было бы абсолютно уместно. Модель, которая слишком легко переключается на новые инструкции, уязвима.
OpenAI признаёт, что это непростая калибровка, и IH-Challenge – не финальное решение, а скорее шаг в нужном направлении. Работа над тем, как модели справляются с конфликтующими источниками инструкций, продолжается.
Но сам факт того, что такие исследования оформляются в отдельные методы обучения и публично описываются, говорит о том, что индустрия всерьёз занялась вопросом: как сделать ИИ-систему не просто умной, но и предсказуемо послушной тем, кому она должна быть послушна.