Большинство крупных языковых моделей сегодня обучаются преимущественно на английском тексте. Это не случайность: английских данных в интернете несравнимо больше, чем текстов на хинди, тамильском, бенгальском или телугу. В результате модели неплохо справляются с английским, но заметно хуже работают с языками, на которых говорят сотни миллионов людей.
Индийская компания Sarvam AI решила работать с этой проблемой напрямую. Недавно она открыла исходный код двух своих языковых моделей – Sarvam 30B и Sarvam 105B. Цифры в названиях обозначают количество параметров – грубо говоря, это «размер» модели, который влияет на её способность понимать и генерировать текст. Чем больше параметров, тем, как правило, сложнее задачи, с которыми модель справляется.
Зачем вообще нужны модели под конкретные языки?
Когда говорят, что модель «поддерживает» какой-то язык, это не всегда означает реальное качество работы с ним. Модель может кое-как переводить текст или отвечать на простые вопросы, но при этом плохо понимать культурный контекст, специфические обороты или смешанный стиль речи – когда человек пишет, скажем, на хинди, но вставляет английские слова.
В Индии такое смешение языков – норма, а не исключение. Плюс к этому, в стране официально признаны 22 языка, и многие из них принципиально отличаются друг от друга по структуре. Обучить модель, которая одинаково уверенно работает с большинством из них, – задача нетривиальная.
Sarvam подошла к этому системно. Обе модели обучались на большом массиве текстов на индийских языках, включая хинди, тамильский, телугу, каннада, малаялам, бенгальский, маратхи, гуджарати, одия и пенджаби. Отдельное внимание уделялось тому, чтобы модели понимали смешанный ввод – когда человек переключается между языками прямо в середине фразы.
30B и 105B – в чём разница?
Проще говоря, это две модели разного масштаба для разных задач.
Sarvam 30B – более компактная. Она рассчитана на случаи, когда важна скорость и доступность: например, для запуска на ограниченном оборудовании или в ситуациях, где нужен быстрый ответ. При этом по качеству работы с индийскими языками она, по заявлению компании, превосходит многие более крупные универсальные модели.
Sarvam 105B – значительно больше и мощнее. Она ориентирована на сложные задачи: развёрнутые ответы, рассуждения, профессиональные контексты. По словам разработчиков, на ряде тестов, связанных с индийскими языками и реалиями, эта модель показывает результаты, сопоставимые с лидирующими коммерческими моделями.
Открытый код – это важно
Оба варианта опубликованы в открытом доступе. Это означает, что разработчики, исследователи и компании могут брать модели, изучать их, адаптировать под свои нужды и встраивать в собственные продукты – без необходимости платить за API или зависеть от внешнего сервиса.
Для индийской технологической экосистемы это особенно значимо. Многие стартапы и некоммерческие организации, работающие с местными языками, просто не могут позволить себе регулярные расходы на коммерческие модели. Открытые веса снижают этот барьер.
Кроме того, открытость позволяет независимо проверять, как модель работает, – что важно в чувствительных областях вроде здравоохранения, образования или юридических сервисов, где ошибки в понимании языка могут иметь реальные последствия.
Откуда взялись данные для обучения?
Один из самых острых вопросов при разработке языковых моделей под конкретные языки – это данные. Текстов на индийских языках в открытом интернете значительно меньше, чем на английском, а качество имеющихся часто оставляет желать лучшего.
Sarvam сформировала собственный корпус текстов, включающий как веб-данные, так и специально собранные и размеченные материалы на целевых языках. Компания также занималась фильтрацией и очисткой данных – это отдельная и трудоёмкая работа, которую часто недооценивают.
По сути, значительная часть усилий команды ушла не на саму архитектуру модели, а на то, чтобы собрать достаточно качественных обучающих данных. Это типичная история для языков, которые принято называть «низкоресурсными» – не потому что на них мало говорят, а потому что их цифровое присутствие исторически невелико.
Кому это пригодится?
Если коротко – всем, кто строит продукты для индийской аудитории и хочет, чтобы они действительно понимали пользователей.
Это могут быть образовательные платформы, которым нужно объяснять материал на родном языке ученика. Или медицинские сервисы, где точность понимания формулировок критична. Или голосовые ассистенты, чат-боты, инструменты для работы с документами – список широкий.
Для разработчиков, которые раньше были вынуждены использовать универсальные модели и мириться с их слабостями в конкретных языках, появление открытой альтернативы – это реальная практическая опция.
Что остаётся открытым
Открытый код – это хорошо, но сам по себе он не решает все проблемы. Запуск модели в 105 миллиардов параметров требует серьёзных вычислительных ресурсов, которые есть далеко не у всех. Более компактная версия доступнее, но и у неё есть требования к инфраструктуре.
Также остаётся вопрос долгосрочной поддержки: открытые модели живут ровно настолько, насколько хватает сил и ресурсов у команды, которая их развивает. Sarvam – относительно молодая компания, и как будет выглядеть поддержка этих моделей через год-два, пока неизвестно.
Наконец, открытые веса – это не то же самое, что открытые данные. Информация о том, на чём именно обучались модели, доступна лишь частично, и это ограничивает возможности для независимого аудита.
Тем не менее сам факт появления качественных открытых моделей с фокусом на индийские языки – это шаг, который давно ждали в местном tech-сообществе. И судя по первым отзывам, интерес к ним вполне реальный.