Когда несколько человек говорят во время одного звонка или на встрече, расшифровка речи нередко превращается в неразбериху: слова есть, а кто их произнёс – непонятно. Эту задачу решает так называемая диаризация – технология, которая «разделяет» аудио по говорящим и помечает, кто что сказал. До недавнего времени это работало только в офлайн-режиме: сначала записываешь, потом обрабатываешь. AssemblyAI сделала шаг вперёд и запустила диаризацию в режиме реального времени – прямо во время разговора.
Что такое диаризация и зачем она нужна
Проще говоря, диаризация – это автоматический ответ на вопрос «кто говорит прямо сейчас?». Представьте, что вы расшифровываете запись совещания. Без диаризации вы получите сплошной поток текста. С ней – структурированный диалог, где каждая реплика подписана: «Спикер 1», «Спикер 2» и так далее.
Это особенно важно в сценариях, где важна не только суть сказанного, но и авторство: деловые переговоры, интервью, медицинские консультации, колл-центры, образовательные сессии. Без разметки по говорящим такие транскрипты почти бесполезны для анализа.
До сих пор большинство систем справлялись с этим только постфактум – то есть сначала нужно было дождаться окончания записи, а уже потом запускать обработку. Потоковая диаризация в реальном времени – это принципиально другой класс задач. Здесь система должна принимать решения прямо «на лету», не зная, что будет сказано дальше.
Как это работает – без погружения в детали
AssemblyAI реализовала потоковую диаризацию в своей модели Universal-3 Pro Streaming. Система принимает аудиопоток и в режиме реального времени не только переводит речь в текст, но и помечает каждый фрагмент меткой говорящего.
Одна из ключевых сложностей здесь – так называемые «ретроактивные правки». Когда в разговор вступает новый человек, система поначалу не знает, что это другой голос. Как только она это понимает, ей нужно не просто правильно пометить новые фразы, но и скорректировать уже размеченный текст. В реальном времени это требует аккуратной балансировки между скоростью ответа и точностью разметки.
Ещё одна задача – не путать говорящих при повторных появлениях. Если человек молчал несколько минут, а потом снова заговорил, система должна узнать его и сохранить ту же метку, а не присвоить новую. Universal-3 Pro Streaming справляется с этим за счёт отслеживания голосовых характеристик на протяжении всей сессии.
До 8 говорящих – и это не предел ожиданий
Система поддерживает до восьми участников в одном потоке. Для большинства практических случаев – командные звонки, интервью, небольшие конференции – этого более чем достаточно.
При этом качество разметки остаётся стабильным даже тогда, когда говорящие перебивают друг друга или говорят почти одновременно. Именно такие ситуации раньше были наиболее проблематичными для потоковых систем.
Почему это сложнее, чем кажется
В офлайн-диаризации у модели есть полная картина: она видит всё аудио целиком и может принять взвешенное решение по каждому фрагменту. В потоковом режиме такой роскоши нет. Модель работает с ограниченным окном – только с тем, что уже произошло. Она не может «заглянуть вперёд».
Это принципиально меняет подход к задаче. Нужно уметь быстро принимать решения с неполной информацией, при этом сохраняя достаточную точность, чтобы результат был полезен. Именно поэтому потоковая диаризация долгое время оставалась нерешённой проблемой для многих компаний.
AssemblyAI отмечает, что Universal-3 Pro Streaming – это первая их модель, которая объединяет распознавание речи и диаризацию говорящих в единый потоковый пайплайн. Раньше эти задачи решались раздельно, и их совмещение добавляло задержки и сложность.
Кому это нужно прямо сейчас
Очевидные бенефициары – разработчики, которые строят продукты поверх голосовых данных. Если коротко: любой сервис, где важно не просто «что сказали», но «кто сказал» – и при этом нужна немедленная обратная связь, а не результат через несколько минут после разговора.
Сюда попадают, например:
- системы автоматического протоколирования встреч;
- сервисы транскрипции для подкастов и интервью в прямом эфире;
- инструменты анализа звонков в колл-центрах;
- медицинские платформы, где важно фиксировать реплики врача и пациента раздельно;
- образовательные решения, отслеживающие активность участников занятия.
До сих пор в таких сценариях разработчикам приходилось либо мириться с задержкой офлайн-обработки, либо вручную выстраивать сложные цепочки из нескольких моделей. Теперь это можно получить из одного источника, без склеивания разных систем между собой.
Что остаётся открытым
Потоковая диаризация – это компромисс. Скорость достигается ценой некоторой неопределённости: в начале разговора, пока голосов мало, система может ошибаться или переназначать метки. По мере накопления данных о каждом голосе точность растёт.
Также стоит учитывать, что качество во многом зависит от условий записи: фоновый шум, плохой микрофон, акцент или очень похожие голоса – всё это по-прежнему создаёт трудности. Это не специфика Universal-3 Pro Streaming, а общее ограничение всех систем диаризации.
Отдельный вопрос – сценарии с большим количеством участников. Восемь говорящих – это потолок на текущий момент, и для крупных многосторонних звонков или онлайн-конференций этого может не хватить.
Тем не менее, появление рабочей потоковой диаризации – это заметный сдвиг. Технология, которая раньше была доступна только как постобработка, теперь работает в прямом эфире. Для всех, кто строит голосовые продукты, это меняет то, что вообще возможно реализовать без серьёзных технических усилий.