Опубликовано

Почему голосовые ИИ-агенты переходят на прямую обработку речи

Разбираемся, чем прямая обработка речи отличается от текстовых промежуточных шагов и почему это важно для голосовых ассистентов будущего.

Продукты
Источник события: Ultravox Время чтения: 4 – 5 минут

Большинство голосовых ассистентов, с которыми мы сталкиваемся сегодня, работают по довольно окольному пути. Сначала они распознают вашу речь и превращают её в текст, затем обрабатывают этот текст через языковую модель, а потом синтезируют ответ обратно в голос. Получается своего рода цепочка: речь → текст → текст → речь. Это работает, но теряет много нюансов по дороге.

Альтернативный подход называется speech-to-speech, то есть прямая обработка речи без промежуточного перевода в текст. Модель слышит голос, обрабатывает его напрямую и отвечает голосом. Звучит логично, но на практике такие системы долго оставались сложными и дорогими. Теперь ситуация меняется, и команда Ultravox решила разобраться, насколько такой подход оправдан.

Недостатки текстовой обработки речи в голосовых ассистентах

Что теряется в текстовой цепочке

Когда вы говорите с обычным голосовым ассистентом, он не слышит вашу интонацию, паузы, темп или эмоции. Всё это исчезает на этапе преобразования в текст. Система видит только слова, как если бы вы их напечатали. Это нормально для простых задач вроде установки таймера, но становится проблемой, когда речь идёт о более сложном взаимодействии.

Представьте, что вы звоните в службу поддержки и говорите с раздражением или неуверенностью. Текстовая система этого не заметит. Она ответит по смыслу слов, но не учтёт вашего состояния. Прямая обработка речи позволяет модели улавливать эти детали и реагировать более естественно.

Кроме того, текстовая цепочка добавляет задержку. Каждый этап требует времени: распознать, обработать, синтезировать. В живом диалоге это ощущается как неестественные паузы. Speech-to-speech системы могут работать быстрее, потому что им не нужно делать столько промежуточных шагов.

Как оценить качество голосовых агентов

Чтобы сравнить разные подходы, нужна методика оценки. Ultravox разработали для этого специальный бенчмарк (эталонную систему оценки) под названием AIEWF Eval. Название расшифровывается как AI Enterprise Workflow Evaluation – то есть тестирование рабочих сценариев для бизнеса.

Суть в том, что оценка проводится не на абстрактных задачах, а на реальных примерах использования: заказ через колл-центр, консультация по продуктам, техническая поддержка. Это важно, потому что голосовые агенты чаще всего нужны именно в таких контекстах, где важна скорость, точность и естественность общения.

Бенчмарк проверяет несколько аспектов: насколько правильно модель понимает запрос, как быстро реагирует, насколько естественно звучит ответ и сохраняет ли она контекст разговора. Это позволяет получить более полную картину, чем просто измерение точности распознавания или скорости генерации.

Преимущества прямой обработки речи speech-to-speech

Результаты: где speech-to-speech выигрывает

Тестирование показало, что прямая обработка речи действительно даёт преимущества в нескольких областях. Во-первых, скорость реакции. Модели, работающие напрямую с речью, показали меньшую задержку между репликами, что делает диалог более живым.

Во-вторых, естественность. Когда модель обрабатывает речь напрямую, она лучше сохраняет интонацию и ритм разговора. Это не означает, что она идеально имитирует человека, но звучит менее механически по сравнению с системами, собирающими ответ из синтезированных фрагментов.

В-третьих, понимание контекста. Речевые модели могут учитывать не только слова, но и то, как они произнесены. Это помогает точнее определить намерение человека, особенно в неоднозначных ситуациях.

Есть и ограничения. Speech-to-speech модели требуют больше вычислительных ресурсов на этапе обучения и пока хуже справляются с редкими языками или узкоспециализированной лексикой. Но для английского языка и типовых бизнес-сценариев они уже показывают стабильные результаты.

Где применяется технология speech-to-speech

Кому это нужно прямо сейчас

Прямая обработка речи особенно полезна там, где важна скорость и эмоциональная окраска диалога. Это колл-центры, где клиенты хотят быстро решить проблему и не ждать, пока робот «подумает». Это консультационные сервисы, где важно создать впечатление живого общения. Это также образовательные приложения, где модель должна реагировать на интонацию ученика, чтобы понять, справляется он или запутался.

Для простых задач вроде установки будильника или проверки погоды текстовая цепочка вполне достаточна. Но чем сложнее сценарий, тем заметнее становятся преимущества speech-to-speech подхода.

Перспективы развития голосовых моделей

Что дальше

Развитие голосовых моделей идёт в сторону большей интеграции речевых возможностей. Если раньше прямая обработка речи была доступна только крупным компаниям с серьёзными ресурсами, то теперь появляются более доступные решения. Ultravox, например, предлагает инструменты для разработчиков, которые хотят встроить speech-to-speech функциональность в свои продукты.

Остаются открытые вопросы: как масштабировать такие системы для поддержки большего числа языков, как сделать их энергоэффективнее, как обеспечить безопасность и конфиденциальность при обработке голосовых данных. Но направление выбрано, и судя по результатам тестирования, оно оправдано.

Прямая обработка речи не заменит текстовые модели полностью, но станет стандартом для тех задач, где важна живость и естественность взаимодействия. И чем доступнее становятся такие технологии, тем чаще мы будем с ними сталкиваться в повседневной жизни.

Оригинальное название: Why speech-to-speech is the future for AI voice agents: Unpacking the AIEWF Eval
Дата публикации: 2 фев 2026
Ultravoxwww.ultravox.ai Международный проект, разрабатывающий ИИ-модели для синтеза и понимания речи.
Предыдущая статья Контекстная инженерия: как финансовым компаниям сделать ИИ надёжным Следующая статья GLM-OCR: маленькая модель, которая читает документы лучше больших

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Разбираемся, как слой оркестрации помогает объединить разрозненные инструменты и сервисы в единую экосистему, способную работать без постоянного ручного контроля.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться