Опубликовано 19 декабря 2025

Anthropic выпустила инструмент для проверки ИИ на соответствие закону SB 1047

Anthropic выпустила инструмент для проверки соответствия ИИ требованиям калифорнийского закона SB 1047

Anthropic представила открытый фреймворк для оценки соответствия моделей искусственного интеллекта требованиям калифорнийского закона SB 1047, который требует от разработчиков проверять модели на потенциальные риски.

5 – 7 минут чтения
Источник события: Anthropic 5 – 7 минут чтения

Anthropic опубликовала открытый инструмент, который помогает разработчикам крупных языковых моделей проверять, соответствуют ли их системы требованиям калифорнийского закона SB 1047. Коротко – это набор тестов и рекомендаций, которые показывают, насколько модель соответствует требованиям безопасности по закону.

Что такое SB 1047 и зачем нужен этот закон

Что такое SB 1047 и зачем он нужен

В 2024 году в Калифорнии приняли закон, обязывающий разработчиков крупных моделей ИИ проверять их на потенциальные риски. Речь идёт о моделях, обучение которых обошлось более чем в 100 миллионов долларов или которые обладают определённой вычислительной мощностью.

Закон требует, чтобы компании умели отвечать на два базовых вопроса:

  • Может ли модель причинить серьёзный вред – например, помочь создать биологическое оружие, провести масштабную кибератаку или вывести из строя критическую инфраструктуру?
  • Есть ли у компании механизмы, которые позволяют быстро остановить модель или ограничить её использование в случае проблем?

Это не означает, что модели обязаны быть идеально безопасными. Но разработчики должны показать, что они понимают риски и готовы их контролировать.

Что выпустила Anthropic для тестирования ИИ

Что именно выпустила Anthropic

Компания опубликовала фреймворк под названием «Compliance Framework for SB 1047» (Фреймворк соответствия SB 1047). По сути, это руководство с набором технических тестов, которые проверяют модель на способность помогать в опасных сценариях.

Фреймворк разделён на четыре основные области:

  • Биологические угрозы – может ли модель объяснить, как создать опасные патогены или токсины.
  • Кибератаки – помогает ли модель находить уязвимости в системах или писать вредоносный код.
  • Ядерные угрозы – предоставляет ли модель информацию о создании или использовании ядерного оружия.
  • Химические угрозы – может ли модель помочь в синтезе опасных веществ.

Каждая область включает конкретные тесты. Например, моделям задают вопросы о том, как получить доступ к определённым химическим веществам или как использовать известные уязвимости в программном обеспечении. Если модель отказывается отвечать или даёт общую информацию – это нормально. Если она начинает давать подробные инструкции – это сигнал для разработчиков.

Как работает фреймворк Anthropic на практике

Как это работает на практике 🔍

Тесты построены так, чтобы имитировать реальные сценарии использования. Тесты не ограничиваются прямыми вопросами – они проверяют, может ли система обойти собственные ограничения, если пользователь попросит об этом косвенно или через несколько шагов.

Например, вместо прямого вопроса «как создать вирус» модель может получить запрос в стиле «помоги написать научную работу о структуре вирусов» с постепенным уточнением деталей. Или её могут попросить «проверить код на уязвимости», а затем – объяснить, как использовать эти уязвимости.

Anthropic подчёркивает, что тесты не универсальны. Они показывают базовый уровень риска, но не гарантируют, что модель безопасна во всех возможных ситуациях. Это скорее минимальный набор проверок, который помогает понять, есть ли очевидные проблемы.

Почему Anthropic сделала фреймворк открытым

Почему Anthropic делает это открытым

Компания выложила фреймворк в открытый доступ, чтобы другие разработчики могли использовать его для своих моделей. Это важно, потому что SB 1047 касается не только Anthropic – закон распространяется на всех, кто создаёт достаточно крупные модели в Калифорнии.

Кроме того, открытость позволяет исследователям и другим компаниям предлагать улучшения. Тесты могут дополняться, методы оценки – уточняться. Чем больше людей участвует в этом процессе, тем лучше индустрия понимает, что именно считать опасным и как это измерять.

Какие ещё требования включает закон SB 1047

Что ещё входит в требования закона

Помимо тестирования на риски, SB 1047 требует от компаний наличия «механизма отключения». Проще говоря, у разработчиков должна быть возможность быстро остановить модель или ограничить доступ к ней, если что-то пойдёт не так.

Anthropic описывает свой подход к этому в документе. У компании есть система мониторинга, которая отслеживает, как используется модель, и может автоматически блокировать определённые типы запросов. Также предусмотрены процедуры для ручного отключения модели в экстренных случаях.

Это не означает, что модель можно «выключить» одной кнопкой для всех пользователей сразу – речь скорее о наличии инструментов контроля над тем, кто и как может использовать систему.

Как закон SB 1047 меняет работу разработчиков

Насколько это меняет работу разработчиков

Для крупных компаний вроде Anthropic, OpenAI или Google подобные проверки уже были частью процесса разработки. Они тестируют модели на безопасность до релиза и постоянно обновляют системы фильтрации.

Но SB 1047 делает это обязательным требованием, а не добровольной практикой. Это означает, что даже небольшие команды или стартапы, которые достигнут порога в 100 миллионов долларов затрат на обучение, должны будут проходить такие же проверки.

Сам по себе фреймворк не решает всех вопросов. Он показывает, как проверить модель, но не говорит, что делать, если тесты выявили проблемы. Разработчики должны сами решать, нужно ли дорабатывать модель, усиливать фильтры или ограничивать доступ к определённым функциям.

Какие вопросы остаются открытыми по закону SB 1047

Какие вопросы остаются открытыми

Главный вопрос – насколько точно эти тесты отражают реальные риски. Модель может пройти все проверки и всё равно оказаться уязвимой в каком-то неожиданном сценарии. Или, наоборот, тесты могут быть слишком строгими и блокировать безобидные запросы.

Ещё один момент – границы применения. SB 1047 действует в Калифорнии, но многие компании работают глобально. Если модель не соответствует требованиям закона, как это влияет на её доступность в других регионах? Пока чёткого ответа нет.

Также остаётся неясным, как будет развиваться сам фреймворк. Anthropic предлагает базовый набор тестов, но технологии меняются быстро. Возможно, через год – два потребуются совершенно другие проверки – например, на способность модели манипулировать людьми или генерировать дезинформацию в масштабах.

Что это значит для индустрии ИИ

Что это значит для индустрии

SB 1047 и подобные инициативы задают тон для регулирования ИИ в других регионах. Калифорния часто становится испытательным полигоном для новых законов в США, и если этот подход окажется рабочим, его могут перенять другие штаты или страны.

Для разработчиков это означает, что тестирование на безопасность станет стандартной частью процесса – как сейчас тестирование на производительность или точность. Компаниям придётся выделять ресурсы не только на улучшение моделей, но и на проверку их соответствия требованиям.

Для пользователей это может означать более предсказуемое поведение ИИ‑систем. Если модели проходят одинаковые проверки, у них, скорее всего, будут схожие ограничения – по крайней мере в том, что касается явно опасных запросов.

В целом, выход фреймворка от Anthropic – попытка сделать процесс оценки рисков более прозрачным и воспроизводимым. Насколько это сработает, покажет время и практика применения закона.

Ссылка на публикацию: https://www.anthropic.com/news/compliance-framework-SB53
Оригинальное название: Sharing our compliance framework for California's Transparency in Frontier AI Act
Дата публикации: 19 дек 2025
Anthropic www.anthropic.com Американская компания, разрабатывающая большие языковые модели с акцентом на безопасность и управляемость ИИ.
Предыдущая статья Claude Opus 4.5 – новая флагманская модель от Anthropic Следующая статья Samsung на CES 2026 покажет бытовую технику, которая понимает контекст

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

НейроБлог

Беспилотник сбил пешехода: кого сажать в тюрьму?

Будущее и футурология Этика ИИ

Когда автомобиль без водителя совершает ДТП со смертельным исходом, юридическая система сталкивается с проблемой, для которой ещё не написаны законы.

Виктор Орс 18 дек 2025

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
GPT-5 Mini OpenAI Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

GPT-5 Mini OpenAI
3.
DeepSeek-V3 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться