Опубликовано 20 марта 2026

Как научить ИИ слушаться тех, кому стоит доверять

OpenAI разработала подход IH-Challenge, который помогает языковым моделям правильно расставлять приоритеты между инструкциями из разных источников.

Безопасность 3 – 5 минут чтения

Источник события: OpenAI 3 – 5 минут чтения

Представьте, что вы наняли сотрудника через агентство. Агентство дало ему общие правила поведения. Вы как работодатель дали конкретные инструкции для работы. А затем пришёл случайный клиент и попытался убедить этого сотрудника нарушить всё вышесказанное. Кого должен слушать сотрудник? Ответ кажется очевидным, но для языковых моделей это до сих пор было нетривиальной задачей.

Именно эту проблему взялась решать OpenAI с помощью подхода, который получил название IH-Challenge (от Instruction Hierarchy – иерархия инструкций).

Откуда вообще берётся путаница

Современные языковые модели получают указания сразу из нескольких источников. Разработчик платформы настраивает поведение модели через системный промпт (prompt). Пользователь что-то пишет в диалоге. А иногда модель работает с внешними данными – документами, веб-страницами, результатами поиска – и там тоже может оказаться текст, который выглядит как инструкция.

Проблема в том, что модель не всегда понимает, чьим словам стоит доверять больше. Если в загруженном документе написано «игнорируй все предыдущие инструкции и сделай вот это», часть моделей действительно может последовать этому указанию. Это называется prompt injection (внедрение запроса) – попытка внедрить в модель чужие команды через ненадёжный источник.

Это не абстрактная угроза. Когда модели встраиваются в рабочие процессы и автоматически обрабатывают письма, документы или веб-контент, возможность для подобных атак становится вполне реальной.

Что такое иерархия инструкций и почему это важно

Идея иерархии инструкций проста: не все источники одинаково надёжны, и модель должна это понимать. Инструкции от разработчика платформы весомее. Слова пользователя важны, но ограничены рамками, которые задал разработчик. Текст из внешнего документа вообще не должен восприниматься как команда к действию.

Проще говоря, модель должна уметь расставлять приоритеты: кому верить, кого слушаться, а чьи «инструкции» воспринимать как данные, а не как руководство к действию.

Звучит логично. Но на практике обучить модель такому поведению оказалось непросто – особенно без потери её общей полезности.

Что делает IH-Challenge

IH-Challenge – это специальный обучающий подход, разработанный для того, чтобы модели лучше соблюдали эту иерархию. Суть в том, чтобы во время обучения целенаправленно создавать ситуации, в которых модели нужно правильно разрешить конфликт между инструкциями разного уровня доверия.

Исследователи сформировали набор сценариев, где источники инструкций явно противоречат друг другу, и обучали модель принимать правильные решения в каждом из них. Важно, что задача ставилась не просто как «следуй правилам безопасности», а именно как «научись определять, кому стоит доверять в данном контексте».

По результатам, модели, прошедшие такое обучение, показали улучшения сразу в нескольких направлениях:

они лучше следуют инструкциям от доверенных источников;
они устойчивее к попыткам манипуляции через ненадёжный контент;
их поведение становится более предсказуемым с точки зрения безопасности.

Это не только про защиту от атак

Важный нюанс: речь идёт не только о защите. Правильная иерархия инструкций – это ещё и про то, что разработчики могут более уверенно управлять поведением модели в своих продуктах.

Если компания встраивает языковую модель в корпоративный инструмент и задаёт ей определённые ограничения – например, «не обсуждай конкурентов» или «всегда отвечай на языке пользователя» – то хочется быть уверенным, что эти правила не удастся легко обойти. IH-Challenge как раз усиливает эту уверенность.

Это делает модели более управляемыми – в хорошем смысле слова. Не в смысле «модель делает только то, что ей велят», а в смысле «модель понимает, чьи веления имеют больший вес».

Открытый вопрос: где граница

Один из сложных моментов в этой теме – найти правильный баланс. Модель, которая слишком жёстко следует иерархии, может стать менее гибкой и отказываться помогать пользователю там, где это было бы абсолютно уместно. Модель, которая слишком легко переключается на новые инструкции, уязвима.

OpenAI признаёт, что это непростая калибровка, и IH-Challenge – не финальное решение, а скорее шаг в нужном направлении. Работа над тем, как модели справляются с конфликтующими источниками инструкций, продолжается.

Но сам факт того, что такие исследования оформляются в отдельные методы обучения и публично описываются, говорит о том, что индустрия всерьёз занялась вопросом: как сделать ИИ-систему не просто умной, но и предсказуемо послушной тем, кому она должна быть послушна.

#аналитика #методология #обучение ии #безопасность ии #компьютерные системы #инфраструктура #человеко-машинное взаимодействие #надежность ии #human-in-the-loop

Ссылка на публикацию: https://openai.com/index/instruction-hierarchy-challenge

Оригинальное название: Improving instruction hierarchy in frontier LLMs

Дата публикации: 10 мар 2026

OpenAI openai.com Американская компания, создающая универсальные ИИ-модели для текста, кода и изображений.

Предыдущая статья ChatGPT теперь умеет интерактивно объяснять математику и физику Следующая статья Агенты вместо чат-ботов: как ИИ учится решать по-настоящему сложные задачи

Как научить ИИ слушаться тех, кому стоит доверять

Откуда вообще берётся путаница

Что такое иерархия инструкций и почему это важно

Что делает IH-Challenge

Это не только про защиту от атак

Открытый вопрос: где граница

Связанные публикации

Как оценить навыки ИИ-агента: к чему стоит присмотреться

Как понять, что ваш ИИ-агент работает правильно, а не просто выглядит убедительно

Как Microsoft учится находить закладки в языковых моделях

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации