Почему просто расшифровать – недостаточно
В Индии голос – основной способ взаимодействия с технологиями. Фермеры узнают цены на урожай, курьеры получают маршруты, пожилые люди осваивают WhatsApp – и все они чаще говорят, чем печатают. Причина проста: клавиатура не справляется с гибкостью индийских языков, а говорить естественнее, чем набирать текст.
Но вот парадокс: традиционные системы распознавания речи (ASR) неплохо работают на тестовых данных с чистым, начитанным голосом, но в реальных условиях начинают сбоить. Оказывается, точность расшифровки – это ещё не всё. Речь в Индии требует чего-то большего, чем просто превращение звуков в текст.
Второго февраля 2026 года команда Sarvam AI представила Sarvam Audio – расширение для языковой модели Sarvam 3B, работающее с аудио. Проект нацелен на решение трёх ключевых проблем, с которыми сталкиваются системы распознавания в индийских реалиях.
Три проблемы, которые мешают понимать речь
Первая – смешение языков (кодовое переключение). Индийцы свободно вставляют английские слова в свою речь. Иногда их нужно оставить на латинице, иногда – транслитерировать на родной алфавит. Единого формата, который подходил бы для всех случаев, просто не существует.
Вторая – несколько голосов одновременно. В реальной жизни люди часто перебивают друг друга: на встречах, интервью или в обычных беседах. Чтобы всё распознать правильно, нужно не только преобразовать звуки в слова, но и понять, кто именно что сказал.
Третья – контекст. Система должна учитывать предыдущие реплики в диалоге или информацию из длинной аудиозаписи. Без этого короткие фразы, двусмысленные выражения или зашумлённые отрывки регулярно интерпретируются неверно.
Sarvam Audio пытается решить все три проблемы одновременно.
Проще говоря, система умеет выдавать результат в разных видах в зависимости от того, где он будет использоваться. Это не просто техническая гибкость, а необходимость: индийская речь многоязычна по умолчанию, и разные задачи требуют разной подачи материала.
Sarvam Audio поддерживает пять режимов транскрипции:
- Дословная расшифровка – воспроизведение текста слово в слово. Подходит для колл-центров и контроля качества, где важна каждая деталь.
- Нормализованная без смешения языков – текст с правильной пунктуацией, где числа записаны цифрами. Удобно для записи адресов и номеров заказов в логистике и электронной коммерции.
- Нормализованная со смешением языков – используется родной алфавит, но английские термины остаются на латинице. Это формат для банковских операций и техподдержки, где упоминаются названия приложений и сервисов.
- Полностью на латинице – весь текст записывается латинскими буквами, что удобно для поиска и переписки. Хорошо работает в WhatsApp Business.
- Умный перевод – вы говорите на любом индийском языке, а получаете английский текст. Полезно для создателей контента, которые хотят выйти на глобальную аудиторию.
Важная деталь: выбор формата происходит не заранее, а непосредственно в момент запроса. Приложение само указывает, какой стиль нужен в данный момент.
Команда проверила качество на бенчмарке IndicVoices – наборе данных, охватывающем разнообразные условия реальной индийской речи. Sarvam Audio сравнили с GPT-4o-Transcribe и Gemini-3-Flash, используя метрику Word Error Rate (уровень ошибок в словах – чем он меньше, тем лучше). Во всех трёх режимах транскрипции Sarvam Audio показала лучшие результаты. Это доказывает, что контроль над форматом не снижает точность.
Кто что сказал и когда
Реальный звук редко бывает монологом. Встречи, интервью, дискуссии – везде участвуют несколько человек, чьи реплики перекрываются. Корректно распознать такой поток – значит не только расшифровать слова, но и точно определить, кому они принадлежат.
Sarvam Audio справляется с этой задачей на аудиозаписях длительностью до 60 минут и демонстрирует лучшие результаты среди аналогов в задаче диаризации – то есть разделения речи по говорящим. Модель не просто транскрибирует, но и размечает, кто именно произнёс ту или иную фразу.
Команда оценивала качество на собственном бенчмарке, собранном из реальных записей встреч с экспертной разметкой. В тестах участвовали аудиозаписи от 1 до 60 минут с участием до 8 спикеров и значительными наложениями голосов. Использовались две метрики: Word Diarization Error Rate (процент слов, приписанных не тому человеку) и Diarization Error Rate (общая ошибка определения говорящих с учётом пропусков и ложных срабатываний). В обоих случаях – чем ниже показатель, тем выше качество.
Контекст как ключ к пониманию
Контекст – это то, без чего невозможно разобрать живую речь. Архитектура Sarvam Audio построена на основе языковой модели, что позволяет учитывать контекст через текстовое описание или историю разговора. Это существенно улучшает качество транскрипции в сложных ситуациях.
Например, когда пользователь отвечает «नौ» (Nau) на вопрос о количестве, система использует контекст диалога, чтобы понять: это число «девять» на хинди, а не английское отрицание «no». В зашумлённой записи, если человек говорит «Bhaiya, loc son bhejo», модель опирается на тематику доставки и восстанавливает правильную фразу: «Bhaiya, location bhejo». В разговоре о фондовом рынке Sarvam Audio расшифрует «M&M» как «Mahindra & Mahindra», а не буквально «M and M».
Команда проверила это на бенчмарке, имитирующем реальную разговорную речь на индийских языках. Вместо классических метрик точности на уровне слов использовали оценку с помощью языковой модели – она лучше отражает, насколько система сохраняет суть и ключевые сущности в командах и диалогах.
Измерялись два параметра: сохранение намерения (правильно ли понято основное действие) и сохранение сущностей (имен, чисел, названий мест и организаций). Sarvam Audio стабильно превосходит Gemini-3-Flash по обоим показателям.
Фреймворк для оценки открыли в публичном доступе, а сам бенчмарк – Synthetic Contextual ASR Benchmark (Indic) – выложили на Hugging Face. Он охватывает 10 основных индийских языков и построен на синтетических данных из таких областей, как банкинг, e-commerce и здравоохранение. Каждый пример включает аудио, эталонную расшифровку, указание языка и полный контекст разговора: роль бота, историю диалога и промпт.
От речи сразу к действию
Голосовые ассистенты сейчас повсюду. Большинство из них работает в два этапа: сначала аудио расшифровывается системой распознавания (ASR), затем текст обрабатывается языковой моделью (LLM). Это рабочий метод, но он вносит задержку и часто приводит к потере контекста – особенно на коротких или зашумлённых фразах.
Sarvam Audio доказывает, что высокоточный вызов функций и извлечение параметров можно выполнять напрямую из аудиопотока – без промежуточного этапа преобразования в текст.
Работая напрямую с речью, система:
- лучше сохраняет намерение и контекст;
- существенно снижает задержку (latency);
- упрощает общую архитектуру решения.
В приведённом в статье примере пользователь на тамильском языке ведёт диалог с ботом по оплате счетов. После того как система уточняет все детали – тип счёта, поставщика, номер аккаунта и сумму – пользователь подтверждает транзакцию. Sarvam Audio мгновенно определяет нужную функцию и её аргументы, исходя из контекста диалога, и вызывает её без дополнительных преобразований.
Такой подход позволяет развертывать надёжных голосовых агентов на основе небольших специализированных наборов данных, не прибегая к тяжеловесным моделям.
Что дальше
Sarvam Audio переосмысливает распознавание речи для Индии с нуля. Это не просто качественная расшифровка на 22 индийских языках и индийском английском. Это система, учитывающая суровую реальность: смешение языков, вариативность алфавитов, длинные записи, перекрывающиеся голоса и сложный контекст.
Главное преимущество модели в том, что она выходит за рамки классического распознавания. Встроенная работа с контекстом, диаризация, управление форматом вывода и прямое преобразование речи в команды закладывают основу для нового поколения голосовых приложений, созданных специально для индийских пользователей.
Sarvam Audio скоро станет доступна на платформе Sarvam Dashboard. Как говорят сами разработчики: «Голос – это интерфейс. Sarvam Audio делает его по-настоящему рабочим для Индии».