Опубликовано 12 февраля 2026

Sarvam Saaras V3: распознавание речи для индийских языков

Sarvam выпустила Saaras V3 – модель распознавания речи для индийских языков

Индийская компания представила новую версию системы распознавания речи, которая работает с 12 языками и обходит крупных конкурентов по точности.

Продукты
Источник события: Sarvam Время чтения: 4 – 6 минут

Индийская компания Sarvam AI выпустила Saaras V3 – модель для автоматического распознавания речи, предназначенную для языков Индии. Это третья версия системы, которая теперь понимает 12 языков: хинди, бенгальский, каннада, малаялам, маратхи, одия, панджаби, тамильский, телугу, урду, гуджарати и английский в индийском произношении.

Значение и важность индийских языковых моделей

Почему это вообще важно

В Индии говорят на десятках языков, и большинство крупных систем распознавания речи работают с ними не очень хорошо. Модели вроде Whisper от OpenAI или решения от Google обучались в основном на данных из западных стран, где доминирует английский. Для индийских языков у них просто мало материала, особенно если речь идёт о разговорных вариантах, акцентах или смешении языков в одной фразе.

Sarvam пытается решить эту проблему, создавая модели специально для региона. И судя по результатам тестов, у них это получается.

Новые возможности и улучшения Saaras V3

Что нового в третьей версии

Saaras V3 обучена на 45 тысячах часов аудио – это примерно в пять раз больше, чем было у предыдущей версии. Данные собирались из разных источников: звонки в колл-центры, YouTube, подкасты, записи с улиц и из офисов. Важно, что в выборке есть как формальная, так и бытовая речь – та, на которой люди реально общаются.

Модель стала лучше справляться с несколькими сложными моментами:

  • Переключение между языками внутри одной фразы. Для Индии это норма: человек может начать предложение на хинди, вставить английское слово и закончить на панджаби. Раньше модели на этом часто «ломались».
  • Акценты и диалекты. В каждом штате свой вариант произношения, и Saaras V3 учитывает это разнообразие.
  • Фоновый шум. Записи с улиц, из транспорта, из многолюдных мест – всё это попало в обучающую выборку, и модель научилась работать в таких условиях.

Saaras V3: сравнение с конкурентами

Сравнение с конкурентами

Sarvam провела тесты на открытых наборах данных и сравнила Saaras V3 с несколькими популярными моделями: Whisper Large V3 Turbo от OpenAI, Gemini 2.0 Flash от Google и собственной предыдущей версией. Основной показатель – это Word Error Rate (коэффициент ошибок в словах), то есть процент ошибочно распознанных слов. Чем он ниже, тем лучше.

Результаты выглядят так: Saaras V3 показала лучший результат на большинстве языков. Например, на хинди у неё коэффициент ошибок в словах около 8%, у Whisper – около 12%, у Gemini – около 14%. На бенгальском разница ещё заметнее: у Saaras V3 примерно 10%, у Whisper – около 18%, у Gemini – более 20%.

Есть пара исключений. На урду Gemini 2.0 Flash показал результат чуть лучше, чем Saaras V3. На английском с индийским акцентом разница между моделями минимальная, но Saaras V3 всё равно немного впереди.

Практическое применение модели Saaras V3

Как это работает на практике

Sarvam предлагает несколько форматов использования модели. Есть API, через который можно отправлять аудио и получать текст. Есть потоковый режим – когда модель распознаёт речь в реальном времени, по мере того как человек говорит. Это удобно для приложений вроде субтитров в прямом эфире или голосовых помощников.

Модель поддерживает файлы в популярных форматах: MP3, WAV, FLAC, OGG и другие. Максимальная длительность аудио для одного запроса – два часа.

Компания также выпустила облегчённую версию модели – Saaras Lite. Она работает быстрее и требует меньше ресурсов, но немного проигрывает в точности. Это вариант для случаев, когда важна скорость, а не идеальное качество распознавания.

Целевая аудитория и сферы использования

Для кого это

Основные сценарии использования – это колл-центры, образовательные платформы, медицинская документация, контент-платформы и голосовые интерфейсы. В Индии много стартапов и компаний, которые создают продукты на местных языках, и для них точность распознавания речи – это критичный параметр.

Например, если вы делаете приложение для записи медицинских консультаций на тамильском, вам нужна модель, которая не будет путать термины и правильно поймёт акцент врача. Или если вы запускаете платформу для онлайн-обучения на бенгальском, важно, чтобы субтитры были точными, иначе студенты просто не поймут материал.

Нераскрытые аспекты и ограничения Saaras V3

Что остаётся за кадром

Sarvam не раскрывает детали архитектуры модели и не публикует её в открытом доступе. Это коммерческий продукт, и доступ к нему платный. Для разработчиков есть API, но саму модель скачать и запустить локально нельзя.

Ещё один момент: все тесты проведены на открытых наборах данных, но в реальных условиях результаты могут отличаться. Например, если в вашем приложении специфическая терминология или нестандартные акценты, модель может работать хуже, чем в бенчмарках.

Наконец, хотя Saaras V3 поддерживает 12 языков, в Индии их гораздо больше. Есть языки с меньшим количеством носителей, для которых вообще нет нормальных систем распознавания речи. Это проблема, которую пока никто не решил.

Что дальше

Sarvam планирует расширять список языков и улучшать качество на уже поддерживаемых. Компания также работает над моделями для других задач – например, над системами синтеза речи и языковыми моделями, ориентированными на индийский контекст.

Для индийского рынка это важный шаг. Технологии, которые работают на местных языках, дают доступ к цифровым сервисам миллионам людей, не говорящих на английском. И если модели вроде Saaras V3 продолжат развиваться, это может изменить то, как люди взаимодействуют с технологиями в регионе.

#событие #прикладной разбор #машинное обучение #лингвистика ии #продукты #бизнес #экономика платформ #диалектные модели #расшифровка аудио
Ссылка на публикацию: https://www.sarvam.ai/blogs/asr
Оригинальное название: Introducing Saaras V3
Дата публикации: 10 фев 2026
Sarvam www.sarvam.ai Индийская ИИ-компания, разрабатывающая языковые модели и речевые технологии для локальных языков и сервисов.
Предыдущая статья Как генерировать 2K-видео быстро: двухступенчатый подход SANA-Video Следующая статья Тест-драйв ИИ-агентов: проверка в реальных условиях, а не на игрушечных задачах

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Индийская компания Sarvam AI представила систему для автоматического озвучивания видео на региональных языках с сохранением интонаций оригинала и синхронизацией движений губ.

Sarvamwww.sarvam.ai 8 фев 2026

Разработчик из Бангалора выпустил мультимодальную модель, которая понимает речь, текст и изображения, поддерживает основные языки Индии и способна работать в автономном режиме.

Sarvamwww.sarvam.ai 11 фев 2026

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться