Индийская компания Sarvam AI выпустила Saaras V3 – модель для автоматического распознавания речи, предназначенную для языков Индии. Это третья версия системы, которая теперь понимает 12 языков: хинди, бенгальский, каннада, малаялам, маратхи, одия, панджаби, тамильский, телугу, урду, гуджарати и английский в индийском произношении.
Значение и важность индийских языковых моделей
Почему это вообще важно
В Индии говорят на десятках языков, и большинство крупных систем распознавания речи работают с ними не очень хорошо. Модели вроде Whisper от OpenAI или решения от Google обучались в основном на данных из западных стран, где доминирует английский. Для индийских языков у них просто мало материала, особенно если речь идёт о разговорных вариантах, акцентах или смешении языков в одной фразе.
Sarvam пытается решить эту проблему, создавая модели специально для региона. И судя по результатам тестов, у них это получается.
Новые возможности и улучшения Saaras V3
Что нового в третьей версии
Saaras V3 обучена на 45 тысячах часов аудио – это примерно в пять раз больше, чем было у предыдущей версии. Данные собирались из разных источников: звонки в колл-центры, YouTube, подкасты, записи с улиц и из офисов. Важно, что в выборке есть как формальная, так и бытовая речь – та, на которой люди реально общаются.
Модель стала лучше справляться с несколькими сложными моментами:
- Переключение между языками внутри одной фразы. Для Индии это норма: человек может начать предложение на хинди, вставить английское слово и закончить на панджаби. Раньше модели на этом часто «ломались».
- Акценты и диалекты. В каждом штате свой вариант произношения, и Saaras V3 учитывает это разнообразие.
- Фоновый шум. Записи с улиц, из транспорта, из многолюдных мест – всё это попало в обучающую выборку, и модель научилась работать в таких условиях.
Saaras V3: сравнение с конкурентами
Сравнение с конкурентами
Sarvam провела тесты на открытых наборах данных и сравнила Saaras V3 с несколькими популярными моделями: Whisper Large V3 Turbo от OpenAI, Gemini 2.0 Flash от Google и собственной предыдущей версией. Основной показатель – это Word Error Rate (коэффициент ошибок в словах), то есть процент ошибочно распознанных слов. Чем он ниже, тем лучше.
Результаты выглядят так: Saaras V3 показала лучший результат на большинстве языков. Например, на хинди у неё коэффициент ошибок в словах около 8%, у Whisper – около 12%, у Gemini – около 14%. На бенгальском разница ещё заметнее: у Saaras V3 примерно 10%, у Whisper – около 18%, у Gemini – более 20%.
Есть пара исключений. На урду Gemini 2.0 Flash показал результат чуть лучше, чем Saaras V3. На английском с индийским акцентом разница между моделями минимальная, но Saaras V3 всё равно немного впереди.
Практическое применение модели Saaras V3
Как это работает на практике
Sarvam предлагает несколько форматов использования модели. Есть API, через который можно отправлять аудио и получать текст. Есть потоковый режим – когда модель распознаёт речь в реальном времени, по мере того как человек говорит. Это удобно для приложений вроде субтитров в прямом эфире или голосовых помощников.
Модель поддерживает файлы в популярных форматах: MP3, WAV, FLAC, OGG и другие. Максимальная длительность аудио для одного запроса – два часа.
Компания также выпустила облегчённую версию модели – Saaras Lite. Она работает быстрее и требует меньше ресурсов, но немного проигрывает в точности. Это вариант для случаев, когда важна скорость, а не идеальное качество распознавания.
Целевая аудитория и сферы использования
Для кого это
Основные сценарии использования – это колл-центры, образовательные платформы, медицинская документация, контент-платформы и голосовые интерфейсы. В Индии много стартапов и компаний, которые создают продукты на местных языках, и для них точность распознавания речи – это критичный параметр.
Например, если вы делаете приложение для записи медицинских консультаций на тамильском, вам нужна модель, которая не будет путать термины и правильно поймёт акцент врача. Или если вы запускаете платформу для онлайн-обучения на бенгальском, важно, чтобы субтитры были точными, иначе студенты просто не поймут материал.
Нераскрытые аспекты и ограничения Saaras V3
Что остаётся за кадром
Sarvam не раскрывает детали архитектуры модели и не публикует её в открытом доступе. Это коммерческий продукт, и доступ к нему платный. Для разработчиков есть API, но саму модель скачать и запустить локально нельзя.
Ещё один момент: все тесты проведены на открытых наборах данных, но в реальных условиях результаты могут отличаться. Например, если в вашем приложении специфическая терминология или нестандартные акценты, модель может работать хуже, чем в бенчмарках.
Наконец, хотя Saaras V3 поддерживает 12 языков, в Индии их гораздо больше. Есть языки с меньшим количеством носителей, для которых вообще нет нормальных систем распознавания речи. Это проблема, которую пока никто не решил.
Что дальше
Sarvam планирует расширять список языков и улучшать качество на уже поддерживаемых. Компания также работает над моделями для других задач – например, над системами синтеза речи и языковыми моделями, ориентированными на индийский контекст.
Для индийского рынка это важный шаг. Технологии, которые работают на местных языках, дают доступ к цифровым сервисам миллионам людей, не говорящих на английском. И если модели вроде Saaras V3 продолжат развиваться, это может изменить то, как люди взаимодействуют с технологиями в регионе.