Опубликовано 7 марта 2026

Sarvam выпустила открытые ИИ-модели с поддержкой индийских языков

Sarvam выпустила открытые языковые модели с поддержкой индийских языков

Индийская компания Sarvam AI открыла исходный код двух крупных языковых моделей – 30B и 105B – с акцентом на поддержку языков Индии.

Продукты 4 – 6 минут чтения

Источник события: Sarvam 4 – 6 минут чтения

Большинство крупных языковых моделей сегодня обучаются преимущественно на английском тексте. Это не случайность: английских данных в интернете несравнимо больше, чем текстов на хинди, тамильском, бенгальском или телугу. В результате модели неплохо справляются с английским, но заметно хуже работают с языками, на которых говорят сотни миллионов людей.

Индийская компания Sarvam AI решила работать с этой проблемой напрямую. Недавно она открыла исходный код двух своих языковых моделей – Sarvam 30B и Sarvam 105B. Цифры в названиях обозначают количество параметров – грубо говоря, это «размер» модели, который влияет на её способность понимать и генерировать текст. Чем больше параметров, тем, как правило, сложнее задачи, с которыми модель справляется.

Зачем нужны языковые модели для конкретных языков?

Зачем вообще нужны модели под конкретные языки?

Когда говорят, что модель «поддерживает» какой-то язык, это не всегда означает реальное качество работы с ним. Модель может кое-как переводить текст или отвечать на простые вопросы, но при этом плохо понимать культурный контекст, специфические обороты или смешанный стиль речи – когда человек пишет, скажем, на хинди, но вставляет английские слова.

В Индии такое смешение языков – норма, а не исключение. Плюс к этому, в стране официально признаны 22 языка, и многие из них принципиально отличаются друг от друга по структуре. Обучить модель, которая одинаково уверенно работает с большинством из них, – задача нетривиальная.

Sarvam подошла к этому системно. Обе модели обучались на большом массиве текстов на индийских языках, включая хинди, тамильский, телугу, каннада, малаялам, бенгальский, маратхи, гуджарати, одия и пенджаби. Отдельное внимание уделялось тому, чтобы модели понимали смешанный ввод – когда человек переключается между языками прямо в середине фразы.

Различия между моделями Sarvam 30B и 105B

30B и 105B – в чём разница?

Проще говоря, это две модели разного масштаба для разных задач.

Sarvam 30B – более компактная. Она рассчитана на случаи, когда важна скорость и доступность: например, для запуска на ограниченном оборудовании или в ситуациях, где нужен быстрый ответ. При этом по качеству работы с индийскими языками она, по заявлению компании, превосходит многие более крупные универсальные модели.

Sarvam 105B – значительно больше и мощнее. Она ориентирована на сложные задачи: развёрнутые ответы, рассуждения, профессиональные контексты. По словам разработчиков, на ряде тестов, связанных с индийскими языками и реалиями, эта модель показывает результаты, сопоставимые с лидирующими коммерческими моделями.

Важность открытого исходного кода для моделей ИИ

Открытый код – это важно

Оба варианта опубликованы в открытом доступе. Это означает, что разработчики, исследователи и компании могут брать модели, изучать их, адаптировать под свои нужды и встраивать в собственные продукты – без необходимости платить за API или зависеть от внешнего сервиса.

Для индийской технологической экосистемы это особенно значимо. Многие стартапы и некоммерческие организации, работающие с местными языками, просто не могут позволить себе регулярные расходы на коммерческие модели. Открытые веса снижают этот барьер.

Кроме того, открытость позволяет независимо проверять, как модель работает, – что важно в чувствительных областях вроде здравоохранения, образования или юридических сервисов, где ошибки в понимании языка могут иметь реальные последствия.

Источники данных для обучения языковых моделей

Откуда взялись данные для обучения?

Один из самых острых вопросов при разработке языковых моделей под конкретные языки – это данные. Текстов на индийских языках в открытом интернете значительно меньше, чем на английском, а качество имеющихся часто оставляет желать лучшего.

Sarvam сформировала собственный корпус текстов, включающий как веб-данные, так и специально собранные и размеченные материалы на целевых языках. Компания также занималась фильтрацией и очисткой данных – это отдельная и трудоёмкая работа, которую часто недооценивают.

По сути, значительная часть усилий команды ушла не на саму архитектуру модели, а на то, чтобы собрать достаточно качественных обучающих данных. Это типичная история для языков, которые принято называть «низкоресурсными» – не потому что на них мало говорят, а потому что их цифровое присутствие исторически невелико.

Кому полезны открытые языковые модели

Кому это пригодится?

Если коротко – всем, кто строит продукты для индийской аудитории и хочет, чтобы они действительно понимали пользователей.

Это могут быть образовательные платформы, которым нужно объяснять материал на родном языке ученика. Или медицинские сервисы, где точность понимания формулировок критична. Или голосовые ассистенты, чат-боты, инструменты для работы с документами – список широкий.

Для разработчиков, которые раньше были вынуждены использовать универсальные модели и мириться с их слабостями в конкретных языках, появление открытой альтернативы – это реальная практическая опция.

Перспективы и нерешенные вопросы открытых моделей ИИ Sarvam AI

Что остаётся открытым

Открытый код – это хорошо, но сам по себе он не решает все проблемы. Запуск модели в 105 миллиардов параметров требует серьёзных вычислительных ресурсов, которые есть далеко не у всех. Более компактная версия доступнее, но и у неё есть требования к инфраструктуре.

Также остаётся вопрос долгосрочной поддержки: открытые модели живут ровно настолько, насколько хватает сил и ресурсов у команды, которая их развивает. Sarvam – относительно молодая компания, и как будет выглядеть поддержка этих моделей через год-два, пока неизвестно.

Наконец, открытые веса – это не то же самое, что открытые данные. Информация о том, на чём именно обучались модели, доступна лишь частично, и это ограничивает возможности для независимого аудита.

Тем не менее сам факт появления качественных открытых моделей с фокусом на индийские языки – это шаг, который давно ждали в местном tech-сообществе. И судя по первым отзывам, интерес к ним вполне реальный.

#событие #прикладной разбор #развитие ии #лингвистика ии #открытые технологии #открытые языковые модели #технологическая независимость

Ссылка на публикацию: https://www.sarvam.ai/blogs/sarvam-30b-105b

Оригинальное название: Open-Sourcing Sarvam 30B and 105B

Дата публикации: 6 мар 2026

Sarvam www.sarvam.ai Индийская ИИ-компания, разрабатывающая языковые модели и речевые технологии для локальных языков и сервисов.

Предыдущая статья Как Axios использует ИИ в местной журналистике Следующая статья Как ИИ учится имитировать физику: точная настройка суррогатных моделей на GPU AMD

Sarvam выпустила открытые ИИ-модели с поддержкой индийских языков

Зачем нужны языковые модели для конкретных языков?

Различия между моделями Sarvam 30B и 105B

Важность открытого исходного кода для моделей ИИ

Источники данных для обучения языковых моделей

Кому полезны открытые языковые модели

Перспективы и нерешенные вопросы открытых моделей ИИ Sarvam AI

Связанные публикации

Индийская компания Sarvam представила голосового ассистента Arya с поддержкой 10 языков

Bulbul V3: индийская модель для озвучивания на 15 языках

Sarvam Dub: автоматический дубляж на индийских языках

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации