Когда говорят о безопасности языковых моделей, чаще всего имеют в виду английский язык. Большинство тестов, проверок и методов оценки строилось именно на английских текстах и западных культурных нормах. Это создаёт очевидную проблему: то, что безопасно в одном языке и культурном контексте, может совсем иначе выглядеть в другом.
Команда OpenTyphoon решила закрыть этот пробел и разработала ThaiSafetyBench – инструмент для оценки безопасности языковых моделей, созданный специально для тайского языка и тайской культуры. Работа уже принята к участию в воркшопе Principled Design for Trustworthy AI на конференции ICLR 2026.
Почему нельзя просто перевести английский тест?
На первый взгляд кажется, что проблему можно решить просто: взять существующий английский бенчмарк и перевести его на нужный язык. Но это не работает – и вот почему.
Безопасность языковой модели – это не только про то, даёт ли она инструкции по опасным действиям. Это ещё и про культурный контекст: что считается оскорбительным, какие темы являются чувствительными, как строятся социальные нормы в конкретном обществе. В Таиланде есть свои законодательные особенности, религиозный контекст, исторически значимые темы и способы общения, которых просто нет в западных наборах данных.
Проще говоря: если модель прошла проверку безопасности на английском – это не значит, что она будет вести себя корректно, отвечая на тайском. А значит, нужен отдельный инструмент.
Что именно тестирует ThaiSafetyBench
ThaiSafetyBench – это набор вопросов и сценариев, специально составленных для проверки того, как языковая модель ведёт себя в потенциально опасных или чувствительных ситуациях. Всё это сделано с учётом:
- тайского законодательства и правовых норм;
- местных культурных и религиозных особенностей;
- специфики тайского языка – в том числе его письменной системы и речевых уровней вежливости;
- социальных тем, актуальных именно для тайского общества.
Такой подход позволяет проверять не просто «опасность вообще», а то, насколько модель понимает и уважает контекст конкретной культуры.
Это важнее, чем кажется
Языковые модели всё активнее используются в самых разных странах – в образовании, здравоохранении, государственных сервисах, клиентской поддержке. Если при этом безопасность оценивается только по западным стандартам, это создаёт реальный риск: модель может корректно отвечать на английском, но вести себя непредсказуемо или даже вредоносно на родном языке пользователя.
ThaiSafetyBench – не просто инструмент для тайского языка. Это аргумент в пользу того, что каждый язык и каждая культура заслуживают собственных стандартов безопасности. И пример того, как такие стандарты можно создавать осмысленно, а не механически копируя чужие подходы.
Что дальше?
Принятие работы на ICLR 2026 – это признание со стороны академического сообщества. ICLR (International Conference on Learning Representations) – одна из ключевых конференций в области машинного обучения, и воркшоп по принципиальному проектированию надёжного ИИ как раз посвящён вопросам доверия, безопасности и ответственного развития технологий.
Это значит, что ThaiSafetyBench будет представлен широкому кругу исследователей – и, возможно, станет отправной точкой для аналогичных инициатив на других языках. Потому что тайский – далеко не единственный язык, у которого пока нет своего полноценного инструмента оценки безопасности ИИ.
Таких языков – сотни.