Когда компания, разрабатывающая одни из самых мощных ИИ-систем в мире, публикует обновление своей внутренней политики безопасности, это не просто корпоративный документ. Это сигнал о том, как индустрия в целом воспринимает риски, которые несут с собой всё более мощные модели.
Anthropic, компания, стоящая за Claude, недавно выпустила третью версию своей Политики ответственного масштабирования (Responsible Scaling Policy, или RSP). Документ регулирует, при каких условиях компания продолжает разработку более мощных моделей – и при каких она должна остановиться.
Что такое RSP и зачем она нужна
Проще говоря, RSP – это внутренний свод правил, отвечающий на вопрос: «Как понять, что мы зашли слишком далеко?» Anthropic исходит из предположения, что ИИ-системы по мере роста своих возможностей могут становиться источником серьёзных рисков – в первую очередь в таких областях, как создание оружия массового поражения или возможность самостоятельно влиять на критически важные системы.
Идея не в том, чтобы остановить прогресс. Идея в том, чтобы прогресс шёл вместе с развитием средств защиты, а не опережал их. RSP задаёт конкретные пороги: если модель достигает определённого уровня возможностей, нужно либо внедрить соответствующие защитные меры, либо не двигаться дальше.
Первая версия политики появилась в 2023 году, вторая – в 2024 году. Третья версия стала результатом накопленного опыта и более чёткого понимания того, где именно проходят границы.
Уровни безопасности: как это работает
В основе RSP лежит система так называемых уровней готовности к безопасности – AI Safety Levels (ASL). Это градация, которая описывает, насколько опасными могут быть возможности конкретной модели.
Сейчас актуальны два ключевых уровня:
- ASL-2 – текущий уровень большинства существующих моделей Anthropic. Модели на этом уровне могут давать информацию по чувствительным темам, но не настолько подробную и точную, чтобы служить реальным «ускорителем» для тех, кто хочет причинить масштабный вред.
- ASL-3 – следующий порог. Это модели, которые уже способны существенно помогать в создании оружия массового поражения или демонстрируют достаточную автономность, чтобы действовать против интересов своих создателей.
Если при тестировании новой модели выясняется, что она приближается к ASL-3, вступают в силу жёсткие требования к защите: по хранению весов модели, по доступу к ней, по порядку её использования.
Что изменилось в версии 3.0
Более чёткие критерии для перехода между уровнями
Одно из главных изменений – Anthropic уточнила, как именно оцениваются возможности модели перед тем, как она получает тот или иной уровень. Раньше формулировки были более размытыми. Теперь компания описывает конкретные индикаторы: что именно должна уметь или не уметь делать модель, чтобы попасть в ту или иную категорию.
Это важно, потому что без чётких критериев любая политика превращается в декларацию о намерениях. Конкретность делает её рабочим инструментом.
Автономные системы вынесены в отдельный фокус
В новой версии отдельное внимание уделено так называемым агентным системам – это ИИ, который действует не просто в режиме «вопрос-ответ», а выполняет многошаговые задачи, взаимодействует с внешними инструментами и принимает решения в процессе работы.
Это отражает реальность: агентные возможности активно развиваются, и риски здесь несколько иные, чем у обычных чат-моделей. Если модель может самостоятельно запускать код, управлять файлами или взаимодействовать с сервисами, вопрос о том, что она при этом делает и насколько это контролируемо, становится принципиальным.
Требования к кибербезопасности
Третья версия RSP впервые вводит явные требования, связанные с кибербезопасностью. Речь идёт о том, что модели ASL-3 и выше не должны активно помогать в проведении кибератак на критическую инфраструктуру, и этот запрет теперь закреплён как отдельное требование, а не просто следствие общих принципов.
Дополнительно вводятся стандарты по защите самих весов модели – то есть её «ядра», которое определяет, как она работает. Утечка весов мощной модели – это отдельный вектор риска, который компания теперь явно регулирует.
Независимая проверка
Пожалуй, одно из наиболее принципиальных изменений в версии 3.0 – акцент на внешней верификации. Anthropic заявляет о намерении привлекать независимых аудиторов для проверки того, выполняются ли требования RSP на практике.
Это попытка уйти от ситуации, когда компания сама себя проверяет. Самоконтроль – это лучше, чем ничего, но независимая проверка – это другой уровень доверия. Тем более что в индустрии всё активнее обсуждают, нужны ли внешние регуляторные механизмы для контроля за разработкой мощных ИИ-систем.
Почему это не просто документ для внутреннего пользования
RSP Anthropic – один из немногих публично доступных детализированных документов такого рода в индустрии. Компания намеренно делает его открытым, и это часть более широкой стратегии: показать, что ответственная разработка ИИ – это не просто слова, а конкретные обязательства с измеримыми параметрами.
Конечно, у такого подхода есть ограничения. Политика остаётся внутренним документом компании – она не имеет юридической силы в традиционном смысле и опирается прежде всего на репутационные и этические стимулы соблюдать собственные обещания. Anthropic сама решает, когда и как обновлять RSP, сама определяет, прошла ли модель пороговые тесты.
Независимая проверка, о которой говорится в версии 3.0, – шаг в сторону большей прозрачности. Но вопрос о том, каким должен быть полноценный внешний контроль за разработкой мощных ИИ-систем, остаётся открытым – и не только для Anthropic.
Контекст, который стоит держать в голове
RSP появилась не в вакууме. Это ответ на реальное ощущение в индустрии: модели становятся мощнее быстрее, чем успевают формироваться практики безопасной работы с ними.
Anthropic позиционирует себя как компанию, которая осознаёт риски собственных разработок, и именно поэтому продолжает их вести: с расчётом на то, что лучше, если мощные системы создают те, кто думает о безопасности, чем те, кто не думает.
Это спорная позиция, и в ней есть внутреннее противоречие, которое компания и сама признаёт. Но RSP – это один из инструментов, которыми Anthropic пытается это противоречие разрешить: не останавливая разработку, но выстраивая конкретные барьеры на пути к тому, что может оказаться действительно опасным.
Версия 3.0 – не финальная точка. Сам документ предполагает, что политика будет продолжать обновляться по мере появления новых возможностей и новых знаний о рисках. Это, пожалуй, одна из самых честных вещей, которые в нём написаны: признание того, что ни у кого пока нет готовых ответов, есть только более или менее продуманные подходы к поиску этих ответов.