Когда речь заходит об оценке ИИ-систем, самый очевидный вопрос – как именно мы измеряем «хорошо»? Для распознавания речи стандартный ответ звучит просто: берём тестовый набор аудиозаписей с готовыми текстовыми расшифровками, запускаем модель и смотрим, сколько слов она распознала неправильно. Чем меньше ошибок, тем лучше модель. Казалось бы, всё очевидно. Но в случае с индийскими языками эта простота оказывается обманчивой.
Команда Sarvam AI провела масштабную работу по оценке систем автоматического распознавания речи (ASR – от английского Automatic Speech Recognition) применительно к языкам Индии. И главный вывод оказался не про числа в таблицах, а про то, насколько сложно получить эти числа честно.
Проблема не в моделях, а в данных
Индия – страна с огромным языковым разнообразием. Только официально признанных языков более двадцати, а диалектов – сотни. При этом большинство существующих наборов данных для обучения и тестирования ASR-систем создавались либо для английского, либо для нескольких крупных мировых языков. Для хинди, тамильского, бенгальского, телугу и других индийских языков ситуация значительно хуже.
Исследователи из Sarvam AI столкнулись с тем, что доступные тестовые датасеты – то есть наборы аудиозаписей с правильными расшифровками, по которым оценивается модель – зачастую либо слишком маленькие, либо не отражают реальную речь. Часть из них содержит студийные записи с идеальным произношением, которые совсем не похожи на то, как люди говорят в повседневной жизни: с акцентом, в шуме, быстро, с паузами.
Проще говоря: если тест не соответствует реальности, то и оценка по нему мало что значит.
Что конкретно проверяли и почему это непросто
Команда сформировала собственные тестовые наборы для нескольких индийских языков, стараясь охватить разные условия записи, акценты и речевые стили. Это само по себе трудоёмкая задача: нужно собрать аудио, привлечь носителей языка для разметки, проверить качество расшифровок и убедиться, что выборка достаточно разнообразна.
Отдельная сложность – метрика оценки. Стандартный показатель в ASR называется WER (Word Error Rate – частота ошибок в словах) – доля слов, которые модель распознала неправильно. Но для языков с богатой морфологией – когда одно слово может иметь десятки форм в зависимости от контекста – эта метрика работает не так хорошо, как для английского. Одна «ошибка» в корне слова может порождать несколько «неправильных» слов в расшифровке, хотя смысл фразы остаётся понятным.
Для некоторых языков исследователи также обращали внимание на то, как модели справляются с переключением кодов – это когда говорящий в середине фразы переходит с одного языка на другой. Для Индии это совершенно обычная ситуация: человек может начать фразу на хинди и закончить её на английском или вставить слово на региональном языке в середину предложения на государственном. Большинство моделей с этим справляются плохо.
Что показало сравнение моделей
В рамках исследования несколько систем распознавания речи сравнивались между собой на одних и тех же тестовых наборах. В числе проверяемых – как глобальные решения, ориентированные на широкий круг языков, так и модели, созданные специально с прицелом на индийский контекст, включая собственные разработки Sarvam.
Результаты показали, что универсальные модели нередко уступают специализированным именно на тех языках, для которых последние создавались. Это не удивительно: общая модель вынуждена «размазывать» своё внимание на десятки языков сразу, тогда как модель, «заточенная» под конкретный язык или языковую группу, может лучше уловить его особенности – фонетику, ритм, типичные конструкции.
Вместе с тем исследователи отметили, что даже специализированные системы пока далеки от того уровня, который считается приемлемым для практического использования, особенно на языках с меньшим количеством обучающих данных или с высокой диалектной вариативностью.
Зачем это важно за пределами академического интереса
Распознавание речи – это не только про то, чтобы голосом набирать текст. Это основа для голосовых помощников, субтитрирования видео, доступности интерфейсов для людей, которые плохо читают или пишут, автоматического перевода в реальном времени и многих других применений.
Для Индии с её многоязычным населением, где значительная часть жителей активнее использует голос, чем клавиатуру, качество ASR-систем – это вопрос реального доступа к технологиям. Если модель плохо понимает тамильский или маратхи, то для миллионов людей целый класс сервисов просто не работает так, как должен.
Именно поэтому честная оценка – не академическая задача, а практическая необходимость. Нельзя улучшить то, что плохо измеряешь.
Открытые вопросы остаются
Работа Sarvam AI поднимает несколько вопросов, на которые пока нет окончательных ответов.
Первый – про стандартизацию. Чтобы сравнивать модели честно, нужны общие тестовые наборы, с которыми согласится сообщество. Для индийских языков такого стандарта пока нет, и разные команды оценивают системы на разных данных, что затрудняет сравнение результатов.
Второй – про баланс между универсальностью и специализацией. Создавать отдельную модель для каждого из двадцати с лишним языков дорого и трудоёмко. Делать одну универсальную – значит мириться с тем, что она будет работать хуже на каждом конкретном языке. Как найти разумный компромисс, остаётся открытым вопросом.
Третий – про данные. Хорошая модель требует большого количества качественных обучающих записей. Для языков с меньшим числом носителей или без сильной цифровой инфраструктуры эти данные просто сложно собрать в нужном объёме.
Исследование Sarvam AI – это в каком-то смысле честный взгляд на то, где сейчас находится ASR для индийских языков. Не триумфальный отчёт, а скорее диагностика: вот что работает, вот что не работает, вот почему измерять это трудно. Такие работы, возможно, менее эффектны, чем анонсы новых моделей, но для развития технологии они не менее важны.