Опубликовано 20 марта 2026

Как научить ИИ слушаться тех, кому стоит доверять

OpenAI разработала подход IH-Challenge, который помогает языковым моделям правильно расставлять приоритеты между инструкциями из разных источников.

Безопасность 3 – 5 минут чтения
Источник события: OpenAI 3 – 5 минут чтения

Представьте, что вы наняли сотрудника через агентство. Агентство дало ему общие правила поведения. Вы как работодатель дали конкретные инструкции для работы. А затем пришёл случайный клиент и попытался убедить этого сотрудника нарушить всё вышесказанное. Кого должен слушать сотрудник? Ответ кажется очевидным, но для языковых моделей это до сих пор было нетривиальной задачей.

Именно эту проблему взялась решать OpenAI с помощью подхода, который получил название IH-Challenge (от Instruction Hierarchy – иерархия инструкций).

Откуда вообще берётся путаница

Современные языковые модели получают указания сразу из нескольких источников. Разработчик платформы настраивает поведение модели через системный промпт (prompt). Пользователь что-то пишет в диалоге. А иногда модель работает с внешними данными – документами, веб-страницами, результатами поиска – и там тоже может оказаться текст, который выглядит как инструкция.

Проблема в том, что модель не всегда понимает, чьим словам стоит доверять больше. Если в загруженном документе написано «игнорируй все предыдущие инструкции и сделай вот это», часть моделей действительно может последовать этому указанию. Это называется prompt injection (внедрение запроса) – попытка внедрить в модель чужие команды через ненадёжный источник.

Это не абстрактная угроза. Когда модели встраиваются в рабочие процессы и автоматически обрабатывают письма, документы или веб-контент, возможность для подобных атак становится вполне реальной.

Что такое иерархия инструкций и почему это важно

Идея иерархии инструкций проста: не все источники одинаково надёжны, и модель должна это понимать. Инструкции от разработчика платформы весомее. Слова пользователя важны, но ограничены рамками, которые задал разработчик. Текст из внешнего документа вообще не должен восприниматься как команда к действию.

Проще говоря, модель должна уметь расставлять приоритеты: кому верить, кого слушаться, а чьи «инструкции» воспринимать как данные, а не как руководство к действию.

Звучит логично. Но на практике обучить модель такому поведению оказалось непросто – особенно без потери её общей полезности.

Что делает IH-Challenge

IH-Challenge – это специальный обучающий подход, разработанный для того, чтобы модели лучше соблюдали эту иерархию. Суть в том, чтобы во время обучения целенаправленно создавать ситуации, в которых модели нужно правильно разрешить конфликт между инструкциями разного уровня доверия.

Исследователи сформировали набор сценариев, где источники инструкций явно противоречат друг другу, и обучали модель принимать правильные решения в каждом из них. Важно, что задача ставилась не просто как «следуй правилам безопасности», а именно как «научись определять, кому стоит доверять в данном контексте».

По результатам, модели, прошедшие такое обучение, показали улучшения сразу в нескольких направлениях:

  • они лучше следуют инструкциям от доверенных источников;
  • они устойчивее к попыткам манипуляции через ненадёжный контент;
  • их поведение становится более предсказуемым с точки зрения безопасности.

Это не только про защиту от атак

Важный нюанс: речь идёт не только о защите. Правильная иерархия инструкций – это ещё и про то, что разработчики могут более уверенно управлять поведением модели в своих продуктах.

Если компания встраивает языковую модель в корпоративный инструмент и задаёт ей определённые ограничения – например, «не обсуждай конкурентов» или «всегда отвечай на языке пользователя» – то хочется быть уверенным, что эти правила не удастся легко обойти. IH-Challenge как раз усиливает эту уверенность.

Это делает модели более управляемыми – в хорошем смысле слова. Не в смысле «модель делает только то, что ей велят», а в смысле «модель понимает, чьи веления имеют больший вес».

Открытый вопрос: где граница

Один из сложных моментов в этой теме – найти правильный баланс. Модель, которая слишком жёстко следует иерархии, может стать менее гибкой и отказываться помогать пользователю там, где это было бы абсолютно уместно. Модель, которая слишком легко переключается на новые инструкции, уязвима.

OpenAI признаёт, что это непростая калибровка, и IH-Challenge – не финальное решение, а скорее шаг в нужном направлении. Работа над тем, как модели справляются с конфликтующими источниками инструкций, продолжается.

Но сам факт того, что такие исследования оформляются в отдельные методы обучения и публично описываются, говорит о том, что индустрия всерьёз занялась вопросом: как сделать ИИ-систему не просто умной, но и предсказуемо послушной тем, кому она должна быть послушна.

Ссылка на публикацию: https://openai.com/index/instruction-hierarchy-challenge
Оригинальное название: Improving instruction hierarchy in frontier LLMs
Дата публикации: 10 мар 2026
OpenAI openai.com Американская компания, создающая универсальные ИИ-модели для текста, кода и изображений.
Предыдущая статья ChatGPT теперь умеет интерактивно объяснять математику и физику Следующая статья Агенты вместо чат-ботов: как ИИ учится решать по-настоящему сложные задачи

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

LightOn AIwww.lighton.ai 12 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться