Когда человек говорит на нескольких языках одновременно переходит с английского на испанский, вставляет французское слово в немецкую фразу традиционные системы распознавания речи начинают путаться. Обычно такой сценарий требует либо отдельных моделей под каждый язык, либо ручного указания: «сейчас будет испанский». Оба варианта неудобны в реальной жизни.
AssemblyAI выпустила модель Universal-3 Pro и она работает иначе.
Что умеет Universal-3 Pro
Модель поддерживает шесть языков: английский, испанский, французский, немецкий, японский и португальский. Причём не просто каждый по отдельности она понимает речь, в которой языки смешиваются прямо в процессе разговора. Это называется code switching переключение кодов, то есть естественный переход между языками внутри одной фразы или диалога.
Проще говоря: если кто-то начинает предложение по-английски, продолжает по-испански и заканчивает по-французски модель справляется с этим без каких-либо подсказок со стороны пользователя.
Помимо этого, Universal-3 Pro работает в режиме стриминга то есть транскрибирует речь в реальном времени, по мере того как человек говорит, а не после того как запись завершена. Это важно для приложений, где нужен живой отклик: виртуальные ассистенты, субтитры в прямом эфире, системы обработки звонков.
Почему это непросто
Распознавание смешанной речи технически сложная задача. Модель должна не только понимать каждый язык по отдельности, но и «на лету» определять, когда происходит переключение, и не теряться при этом. Особенно это актуально для языков с очень разной структурой например, японского и немецкого.
До сих пор многие системы либо требовали явного указания языка заранее, либо допускали заметные ошибки при смешении. Universal-3 Pro, по заявлению AssemblyAI, справляется с этим нативно то есть переключение между языками заложено в саму архитектуру модели, а не реализовано как надстройка.
Кому это нужно
Аудитория довольно широкая. Многоязычные колл-центры, стриминговые платформы с международной аудиторией, приложения для изучения языков, инструменты для транскрипции интервью и подкастов везде, где люди говорят больше чем на одном языке, и где важна скорость обработки.
Особенно актуально это для регионов с высоким уровнем двуязычия: испаноязычные сообщества в США, франкоязычные в Канаде, немецко-английская среда в Европе там переключение между языками происходит постоянно и совершенно естественно.
Что остаётся за кадром
AssemblyAI пока не раскрывает подробной статистики точности по всем шести языкам в условиях активного смешения. Заявленные возможности выглядят убедительно, но реальная устойчивость модели при нестандартных акцентах, диалектах или быстрой смене языков это то, что проверяется только на практике.
Также шесть языков это пока ограниченный список. За бортом остаются, например, арабский, хинди, китайский, корейский и десятки других языков с большой аудиторией носителей. Насколько быстро этот список будет расширяться открытый вопрос.
Тем не менее сам факт появления многоязычного стримингового распознавания с нативным переключением кодов это шаг в сторону более реалистичной обработки человеческой речи. Люди редко говорят «в рамках одного языка» и хорошо, что модели начинают это учитывать.