Anthropic выпустила обновлённую версию того, что они называют «Конституционный ИИ Claude» (Claude Constitutional AI) – набор принципов, по которым модель решает, как себя вести в сложных ситуациях. Если коротко: раньше эти правила писала небольшая команда внутри компании, теперь к процессу впервые подключили обычных людей.
Что такое «конституция» для ИИ и зачем она нужна 📜
Когда вы общаетесь с Claude, модель постоянно принимает решения: отвечать или отказать, как сформулировать ответ, какие темы считать допустимыми. Эти решения опираются на встроенный свод правил – своего рода «конституцию».
Раньше эту конституцию составляла команда Anthropic. Они опирались на принципы из документов ООН по правам человека, подходы Apple к конфиденциальности, этику искусственного интеллекта и другие источники. Получился текст, который определял поведение модели, но его писали несколько десятков человек в офисе компании.
Проблема очевидная: ИИ используют миллионы людей в разных странах, с разными культурами и ожиданиями. То, что кажется разумным команде разработчиков в Сан-Франциско, может не совпадать с тем, что хотят видеть пользователи в Бразилии, Японии или Германии.
Как работал эксперимент с участием пользователей
Anthropic запустила процесс под названием «Коллективный конституционный ИИ» (Collective Constitutional AI). Суть проста: они пригласили тысячи людей со всего мира высказаться, какие правила должны определять поведение Claude.
Участникам предлагали конкретные ситуации – например, как модель должна отвечать на спорный вопрос или что делать, если запрос касается чувствительной темы. Люди голосовали, обсуждали, предлагали формулировки. Собрали около миллиона ответов.
Затем эти ответы обработали и превратили в обновлённую конституцию. Теперь она отражает не только взгляды команды Anthropic, но и мнения реальных пользователей из разных регионов.
Что изменилось в новой версии
Anthropic не публикует полный текст конституции – это внутренний документ. Но они рассказали о ключевых изменениях:
- Модель стала больше учитывать культурные различия. Например, то, что считается вежливым в одной стране, может выглядеть странно в другой – теперь Claude старается это учитывать.
- Появились более чёткие правила для ситуаций, где нет однозначного ответа. Раньше модель могла слишком осторожничать и отказывать там, где можно было помочь. Теперь баланс чуть сдвинулся в сторону полезности.
- Усилено внимание к прозрачности. Если модель не уверена или тема требует осторожности, она должна об этом сказать, а не просто молча отказать.
Важный момент: изменения не означают, что Claude стала менее безопасной. Речь о том, чтобы модель лучше понимала контекст и могла адаптироваться к разным запросам, не теряя при этом основных ограничений.
Почему это важно для индустрии
Подход Anthropic показывает одну из возможных траекторий развития ИИ. Большинство компаний до сих пор решают, как модели должны себя вести, внутри своих команд. Это быстрее и проще, но создаёт очевидную проблему: небольшая группа людей определяет правила для технологии, которой пользуются миллионы.
«Коллективный конституционный ИИ» – попытка сделать процесс более открытым. Конечно, это не прямая демократия: Anthropic всё равно контролирует, как именно мнения пользователей превращаются в правила. Но сам факт, что компания готова спрашивать и учитывать ответы, уже шаг в сторону большей прозрачности.
Другие компании пока не спешат повторять этот подход. OpenAI и Google используют внутренние процессы для настройки моделей, иногда привлекая внешних экспертов, но массового опроса пользователей не проводят. Возможно, Anthropic тестирует модель, которая может стать стандартом – или наоборот, покажет, почему такой подход слишком сложен для масштабирования.
Что остаётся под вопросом
Несмотря на открытость эксперимента, детали остаются закрытыми. Мы не знаем, как именно отбирали участников – была ли выборка случайной или компания специально искала баланс по странам, возрасту, профессиям. Не ясно, как взвешивали противоречивые мнения: если одна группа хочет большей свободы, а другая – больше ограничений, кто побеждает?
Также непонятно, как часто Anthropic планирует обновлять конституцию. Если это разовый эксперимент, то новая версия быстро устареет. Если регулярный процесс – это серьёзная нагрузка на команду и участников.
И наконец, главный вопрос: насколько новая конституция изменит реальное поведение Claude? Пользователи заметят разницу или это останется внутренним улучшением, которое проявится только в редких пограничных случаях?
Что дальше
Anthropic говорит, что будет продолжать работать в этом направлении. Возможно, процесс станет регулярным, и каждое крупное обновление Claude будет включать новый раунд сбора мнений.
Для остальной индустрии это сигнал: вопрос о том, кто определяет правила поведения ИИ, становится всё более важным. Модели встраиваются в критичные процессы – образование, медицину, работу с информацией. И если сейчас эти правила пишут несколько человек в офисе компании, через пару лет это может выглядеть как явная проблема.
Пока неясно, станет ли подход Anthropic стандартом. Но сам факт, что компания пробует, уже достаточно интересен, чтобы за этим следить.