Популярный способ сравнения ИИ-транскрибаторов оказался не таким объективным, как принято считать – разбираемся, где именно он даёт сбой.
Higgs Audio v3 от Boson AI распознаёт речь на 94 языках, понимает эмоции и превосходит конкурентов по точности в ключевых языках.
ИИ: События
Как ИИ учится различать голоса в реальном времени: задача сложнее, чем кажется
Разработка
Разбираемся, как работает диаризация – технология, которая определяет, кто и когда говорит в аудиопотоке, и почему делать это в реальном времени особенно трудно.
AssemblyAI выпустила модель Universal-3 Pro с поддержкой шести языков и переключением между ними прямо в середине речи без ручных настроек.
Разбираемся, что стоит за понятием «аудиоинтеллект» и почему умение машин понимать речь – это больше, чем просто расшифровка слов.
ИИ: События
Распознавание речи в шуме: почему системы работают на тестах, но «ломаются» в реальности
Разработка
Разбираем, почему системы распознавания речи показывают отличные результаты на тестах, но «теряются» в реальных условиях с фоновым шумом.
В статье исследуется точность ИИ-транскрибации фармацевтических названий, определяются модели, которые справляются лучше, и объясняется важность этого для медицины.
Индийская компания представила новую версию системы распознавания речи, которая работает с 12 языками и обходит крупных конкурентов по точности.
Индийские разработчики представили аудиомодель, которая не просто расшифровывает речь, а понимает контекст разговора и адаптируется к формату вывода.