Когда ChatGPT отказывается отвечать на какой-то вопрос или добавляет оговорку там, где её, казалось бы, никто не просил, – за этим стоит не случайная прихоть. Это результат осознанной работы по встраиванию в модель определённых норм поведения. Исследователи из Школы бизнеса Теппера в Университете Карнеги – Меллон изучили, как именно OpenAI формирует эти нормы, и что из этого получается.
Не просто фильтры
Многие воспринимают ограничения в ИИ-системах как нечто вроде фильтра: запрещённые слова или темы просто не проходят через барьер. На деле всё устроено иначе. Поведение ChatGPT формируется на нескольких уровнях сразу – начиная с того, на каких данных обучалась модель, и заканчивая тем, как именно людям платили за оценку её ответов.
Проще говоря, модель не «знает правил» в том смысле, в каком их знает человек. Она воспроизводит паттерны поведения, поощрённые в процессе обучения. И именно здесь начинаются сложности.
Три направления, которые сложнее всего выдержать одновременно
Исследователи сосредоточились на трёх аспектах, которые OpenAI пытается встроить в поведение модели.
Безопасность – пожалуй, самое очевидное. Модель не должна помогать с задачами, способными причинить вред: от инструкций по созданию оружия до советов, ухудшающих чьё-то психологическое состояние. Но граница здесь размыта. Один и тот же запрос – скажем, про химические реакции – может быть учебным или опасным в зависимости от контекста. Модель не всегда способна это различить.
Честность и справедливость – сложнее. Здесь речь идёт о том, чтобы модель не воспроизводила стереотипы, не давала односторонних оценок и не дискриминировала по каким-либо признакам. Звучит разумно. Но на практике «справедливость» сама по себе – понятие, по которому у людей нет единого мнения. То, что кажется нейтральным одному, для другого выглядит предвзятым. Это не техническая проблема, а философская.
Авторские права – отдельная история. Языковые модели обучаются на огромных массивах текстов из интернета, включая материалы, защищённые авторским правом. Когда модель воспроизводит фрагмент текста дословно или очень близко к оригиналу, это потенциально является нарушением. OpenAI пытается настроить модель так, чтобы она перефразировала, а не копировала. Но полностью решить эту проблему на уровне обучения пока не удаётся.
Почему одновременно – это трудно
Между этими тремя направлениями возникают противоречия. Модель, настроенная быть максимально осторожной с точки зрения безопасности, начинает отказываться отвечать на вполне безобидные вопросы – это называют «чрезмерной осторожностью». Модель, старающаяся быть справедливой, иногда использует обтекаемые формулировки там, где читателю нужна конкретика. Модель, обученная избегать копирования, может терять точность цитирования, что тоже не всегда желательно.
Это классическая инженерная дилемма: оптимизируешь один параметр – теряешь в другом. Только здесь параметры не числовые, а ценностные – и именно поэтому решение не может быть чисто техническим.
Люди в процессе
Одна из ключевых технологий, которую OpenAI использует для настройки поведения ChatGPT, – это обучение с подкреплением на основе обратной связи от человека. Если коротко: реальные люди оценивают ответы модели, и на основе этих оценок модель учится, что «хорошо», а что «плохо».
Проблема в том, что оценщики – живые люди с разными взглядами, культурным контекстом и личными предпочтениями. Консенсус между ними возможен не всегда. И то, что в итоге закрепляется в поведении модели, – это не некий объективный стандарт, а усреднённое представление конкретной группы людей в конкретный момент.
Это не значит, что подход плохой. Это значит, что он человеческий – со всеми вытекающими ограничениями.
Что это значит на практике
Для большинства пользователей эти детали остаются за кадром. Они просто замечают, что иногда модель отказывается отвечать, иногда добавляет длинные оговорки, а иногда, кажется, перестраховывается там, где в этом нет нужды.
Понимание того, откуда берётся такое поведение, помогает воспринимать его трезвее. Это не произвол и не случайность – это следствие конкретных решений, принятых при разработке. И каждое из этих решений отражает определённый выбор: что важнее – безопасность или полезность, осторожность или точность, нейтральность или честность.
Открытых вопросов здесь по-прежнему больше, чем ответов. Как установить границы так, чтобы модель оставалась полезной, не становясь при этом инструментом вреда? Кто имеет право определять, что «справедливо»? Как обращаться с авторскими правами в эпоху, когда границы между вдохновением и копированием всё более размыты?
Эти вопросы выходят далеко за пределы ChatGPT – они касаются всей индустрии. И ответы на них будут формироваться ещё долго.