Опубликовано 9 апреля 2026

Как ChatGPT отказывает: принципы безопасности, честности и авторских прав

Как ChatGPT учат говорить «нет»: безопасность, честность и авторские права внутри модели

Исследователи выяснили, как именно в ChatGPT закладываются ограничения, и почему это сложнее, чем просто список запрещённых тем.

Общество 3 – 5 минут чтения
Источник события: Carnegie Mellon University 3 – 5 минут чтения

Когда ChatGPT отказывается отвечать на какой-то вопрос или добавляет оговорку там, где её, казалось бы, никто не просил, – за этим стоит не случайная прихоть. Это результат осознанной работы по встраиванию в модель определённых норм поведения. Исследователи из Школы бизнеса Теппера в Университете Карнеги – Меллон изучили, как именно OpenAI формирует эти нормы, и что из этого получается.

Ограничения ChatGPT не просто фильтры

Не просто фильтры

Многие воспринимают ограничения в ИИ-системах как нечто вроде фильтра: запрещённые слова или темы просто не проходят через барьер. На деле всё устроено иначе. Поведение ChatGPT формируется на нескольких уровнях сразу – начиная с того, на каких данных обучалась модель, и заканчивая тем, как именно людям платили за оценку её ответов.

Проще говоря, модель не «знает правил» в том смысле, в каком их знает человек. Она воспроизводит паттерны поведения, поощрённые в процессе обучения. И именно здесь начинаются сложности.

Главные направления формирования поведения ChatGPT

Три направления, которые сложнее всего выдержать одновременно

Исследователи сосредоточились на трёх аспектах, которые OpenAI пытается встроить в поведение модели.

Безопасность – пожалуй, самое очевидное. Модель не должна помогать с задачами, способными причинить вред: от инструкций по созданию оружия до советов, ухудшающих чьё-то психологическое состояние. Но граница здесь размыта. Один и тот же запрос – скажем, про химические реакции – может быть учебным или опасным в зависимости от контекста. Модель не всегда способна это различить.

Честность и справедливость – сложнее. Здесь речь идёт о том, чтобы модель не воспроизводила стереотипы, не давала односторонних оценок и не дискриминировала по каким-либо признакам. Звучит разумно. Но на практике «справедливость» сама по себе – понятие, по которому у людей нет единого мнения. То, что кажется нейтральным одному, для другого выглядит предвзятым. Это не техническая проблема, а философская.

Авторские права – отдельная история. Языковые модели обучаются на огромных массивах текстов из интернета, включая материалы, защищённые авторским правом. Когда модель воспроизводит фрагмент текста дословно или очень близко к оригиналу, это потенциально является нарушением. OpenAI пытается настроить модель так, чтобы она перефразировала, а не копировала. Но полностью решить эту проблему на уровне обучения пока не удаётся.

Сложности одновременного учёта этих направлений

Почему одновременно – это трудно

Между этими тремя направлениями возникают противоречия. Модель, настроенная быть максимально осторожной с точки зрения безопасности, начинает отказываться отвечать на вполне безобидные вопросы – это называют «чрезмерной осторожностью». Модель, старающаяся быть справедливой, иногда использует обтекаемые формулировки там, где читателю нужна конкретика. Модель, обученная избегать копирования, может терять точность цитирования, что тоже не всегда желательно.

Это классическая инженерная дилемма: оптимизируешь один параметр – теряешь в другом. Только здесь параметры не числовые, а ценностные – и именно поэтому решение не может быть чисто техническим.

Роль людей в формировании поведения ChatGPT

Люди в процессе

Одна из ключевых технологий, которую OpenAI использует для настройки поведения ChatGPT, – это обучение с подкреплением на основе обратной связи от человека. Если коротко: реальные люди оценивают ответы модели, и на основе этих оценок модель учится, что «хорошо», а что «плохо».

Проблема в том, что оценщики – живые люди с разными взглядами, культурным контекстом и личными предпочтениями. Консенсус между ними возможен не всегда. И то, что в итоге закрепляется в поведении модели, – это не некий объективный стандарт, а усреднённое представление конкретной группы людей в конкретный момент.

Это не значит, что подход плохой. Это значит, что он человеческий – со всеми вытекающими ограничениями.

Как это проявляется в работе ChatGPT на практике

Что это значит на практике

Для большинства пользователей эти детали остаются за кадром. Они просто замечают, что иногда модель отказывается отвечать, иногда добавляет длинные оговорки, а иногда, кажется, перестраховывается там, где в этом нет нужды.

Понимание того, откуда берётся такое поведение, помогает воспринимать его трезвее. Это не произвол и не случайность – это следствие конкретных решений, принятых при разработке. И каждое из этих решений отражает определённый выбор: что важнее – безопасность или полезность, осторожность или точность, нейтральность или честность.

Открытых вопросов здесь по-прежнему больше, чем ответов. Как установить границы так, чтобы модель оставалась полезной, не становясь при этом инструментом вреда? Кто имеет право определять, что «справедливо»? Как обращаться с авторскими правами в эпоху, когда границы между вдохновением и копированием всё более размыты?

Эти вопросы выходят далеко за пределы ChatGPT – они касаются всей индустрии. И ответы на них будут формироваться ещё долго.

Оригинальное название: How ChatGPT has Been Prompted to Respect Safety, Fairness, and Copyright
Дата публикации: 8 апр 2026
Carnegie Mellon University ai.cmu.edu Американский исследовательский университет, один из мировых центров развития искусственного интеллекта, ведущий фундаментальные и прикладные исследования в области машинного обучения, робототехники и компьютерных наук.
Предыдущая статья Google выпустила Gemma 4: четыре модели с открытым кодом, помещающиеся на смартфоне Следующая статья Google Gemma 4: открытые ИИ-модели, которые умещаются в смартфон

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

OpenAI подробно рассказала о Model Spec – внутреннем своде правил, который определяет поведение ИИ-моделей и устанавливает баланс между безопасностью и свободой пользователя.

OpenAIopenai.com 26 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться