Опубликовано 11 марта 2026

Искусственный интеллект в медицине: почему ИИ не распознает речь врача на приеме

Голос на приёме: почему искусственный интеллект не может расслышать врача

Исследователи проверили, способны ли ИИ-системы понимать реальные медицинские разговоры – и результат оказался жёстким приговором для всей отрасли.

Электротехника и системные науки 9 – 13 минут чтения
Автор публикации: Доктор Алексей Петров 9 – 13 минут чтения
«Меня в этой истории зацепила не техническая часть – там всё предсказуемо. Зацепило другое: двенадцать команд, шесть-восемь недель работы, лучшие доступные инструменты – и всё равно недостаточно. Это не провал, это честная калибровка. Именно такие результаты я и считаю ценными: не те, что показывают «как хорошо всё работает», а те, что показывают, насколько далеко ещё идти. Интересно, сколько коммерческих продуктов в этой области прошли бы тот же тест – и были бы готовы опубликовать результаты.» – Доктор Алексей Петров

Представьте себе такую картину. Сельский медицинский лагерь где-то в Индии. Молодой врач ведёт приём. Пациент говорит на смеси хинди и местного диалекта, рядом шумит генератор, в соседней комнате плачет ребёнок, кто-то из персонала переспрашивает дозу лекарства прямо в середине разговора. Врач за двадцать минут должен расспросить о симптомах, объяснить лечение, выписать назначение и запомнить ключевые детали для медицинской карты.

А теперь вопрос: может ли программа для распознавания речи справиться с этим? Не в студии звукозаписи, не в тишине офиса – а именно здесь, в этом хаосе?

В 2023–2024 годах группа исследователей решила дать на этот вопрос честный ответ. Они организовали соревнование под названием DISPLACE-M – от английского «DIarization and Speech Processing for LAnguage understanding in Conversational Environments – Medical», что можно перевести как «диаризация и обработка речи для понимания языка в разговорных средах – медицина». За сложным названием стоит простая и жёсткая задача: взять реальные медицинские разговоры, дать их командам разработчиков со всего мира и посмотреть, что получится.

Получилось поучительно.

Зачем ИИ распознавать речь врача

Зачем вообще нужен ИИ, который слушает врача

Начнём с очевидного. Врач тратит огромное количество времени не на лечение, а на документацию. Записи, карты, направления, выписки – всё это работа, которая технически могла бы делаться автоматически, если бы система умела слушать разговор и извлекать из него нужную информацию.

Доклад Всемирной организации здравоохранения 2021 года прямо указывает: большинство существующих решений для телемедицины не умеют работать с живой речью. Они не понимают естественный диалог, не умеют отделить вопрос пациента от ответа врача, не способны автоматически составить краткое резюме приёма. Это означает, что даже самая продвинутая телемедицинская платформа всё равно требует ручного труда там, где его теоретически можно было автоматизировать.

Для богатых стран с одним государственным языком и высококачественными микрофонами это, может быть, и решаемая задача – хотя тоже со скрипом. Но возьмём Индию. Страна с двадцатью двумя официальными языками и сотнями диалектов. Где пациент в одном предложении может использовать три языка одновременно. Где приём нередко ведётся в условиях, далёких от студийных. Здесь задача становится принципиально другой.

Именно для этого случая и был создан DISPLACE-M. Организаторы сотрудничали с компанией HealthQuad – одним из крупных инвесторов в цифровое здравоохранение Индии – и стартапом PhonicAI, который предоставил медицинские записи для оценки. Задача была сформулирована честно: не создать рекламный прототип, а проверить, насколько реальные системы справляются с реальными данными.

Какие данные легли в основу исследования

Что за данные легли в основу

Набор данных, собранный для DISPLACE-M, – это, пожалуй, самое ценное, что появилось в рамках всего проекта.

35 часов живых медицинских разговоров. Не актёры, не сценарии, не студийные записи. Реальные приёмы: телемедицинские центры, выездные медицинские лагеря, домашние визиты. Пациенты и медработники говорят, как они говорят – перебивая друг друга, переходя с одного языка на другой, используя сленг и местные выражения. 25 часов отдано на обучение и разработку систем, 10 часов – на «слепую» проверку, то есть команды видели эти записи впервые и не могли под них подстраиваться.

Каждый разговор был вручную размечен. Это означает, что живые люди прослушали все 35 часов и проставили метки: кто говорит в каждый момент, что именно сказано слово в слово, о чём идёт речь в каждом фрагменте и каково краткое содержание всего разговора. Это колоссальный труд, и именно он делает этот набор данных полезным инструментом для проверки систем искусственного интеллекта.

Почему такая разметка важна? Потому что без неё невозможно оценить, насколько хорошо работает система. Если программа утверждает, что врач сказал одно, а пациент – другое, нужно с чем-то это сравнивать. Эталонная разметка – это та самая «правильная версия», относительно которой измеряется ошибка.

Четыре задачи соревнования по распознаванию речи ИИ

Четыре задачи, которые надо было решить

Соревнование разбили на четыре отдельные задачи. Каждая – отдельный уровень сложности, и все они связаны в одну цепочку: выход одной задачи становится входом следующей.

Задача первая: кто говорит

Это называется диаризацией диктора – от французского «diaire» (дневник, журнал). Грубо говоря, задача звучит так: прослушай запись и поставь метку на каждый фрагмент – это врач говорит или пациент?

Звучит просто. На практике – нет. Когда двое говорят одновременно, когда один перебивает другого на полуслове, когда фоновый шум накладывается на речь – алгоритм начинает путаться. Ошибка измеряется метрикой DER (коэффициент ошибок диаризации): чем ниже число, тем точнее система определила, кто и когда говорил.

Задача вторая: что было сказано

Это автоматическое распознавание речи – перевод звука в текст. Задача, которую мы все знаем по голосовым помощникам на телефоне. Только здесь всё значительно сложнее: медицинская терминология, несколько языков одновременно, шум, акценты.

Ошибка измеряется метрикой tcpWER – коэффициент ошибок на уровне слов с учётом временных меток. Проще говоря: сколько слов система распознала неверно по отношению к общему числу слов в эталонной расшифровке.

Задача третья: о чём шла речь

Допустим, у нас уже есть текст. Теперь надо понять его структуру: этот фрагмент про симптомы, этот – про диагноз, этот – про инструкции по приёму лекарств. Это классификация по темам, и она нужна для того, чтобы автоматически структурировать запись приёма.

Качество оценивается через стандартные показатели точности классификации, в том числе F1-меру – показатель, который учитывает как количество правильных ответов, так и количество пропущенных и ложных.

Задача четвёртая: краткое содержание

Финальная задача – самая близкая к практическому применению. Взять весь разговор и сжать его до короткого резюме: что беспокоит пациента, что сказал врач, что назначено. Именно этот текст потом мог бы автоматически попасть в медицинскую карту.

Качество резюме измеряется метрикой ROUGE-L: она сравнивает, насколько сгенерированный текст совпадает с эталонным резюме, составленным человеком, на уровне последовательностей слов.

Как работают базовые системы распознавания речи

Как устроены базовые системы

Организаторы не бросили участников в чистое поле. Они предоставили базовые системы – стартовые решения для каждой из четырёх задач. Это важно, потому что позволяет честно сравнивать: насколько команды смогли улучшить исходную точку.

Для диаризации базовая система работала примерно так: сначала определялось, где в записи вообще есть речь, а где – тишина или шум. Затем для каждого речевого фрагмента вычислялся голосовой «отпечаток» – математическое представление характеристик голоса конкретного человека. Эти отпечатки группировались по схожести: похожие голоса – один диктор, непохожие – разные. Такой подход работает в идеальных условиях неплохо. В реальных – значительно хуже.

Для распознавания речи взяли многоязычные нейросетевые модели, предварительно обученные на больших объёмах аудиоданных, и дообучили их на медицинских записях DISPLACE-M. Дополнительно применялось шумоподавление и искусственное «загрязнение» обучающих данных шумом – чтобы модель привыкала работать в трудных условиях.

Для классификации тем использовались языковые модели – системы, которые умеют превращать текст в числовые векторы, сохраняющие смысловые связи между словами. На основе этих векторов классификатор обучался относить фрагменты текста к нужным темам.

Для суммирования применялись модели типа «последовательность в последовательность» – архитектуры, которые читают длинный текст и генерируют короткий. Конкретно использовались варианты BART и T5 – нейросетевые модели, разработанные примерно в 2019–2020 годах и ставшие стандартом для задач автоматического реферирования текстов.

Какие результаты показали тесты ИИ

Что показали результаты

Двенадцать команд из разных стран шесть-восемь недель работали над улучшением систем. Это серьёзный объём усилий. И результаты действительно оказались лучше исходных базовых – иногда существенно лучше.

В диаризации лучшие команды применяли более сложные голосовые «отпечатки» – в частности, архитектуру ECAPA-TDNN, разработанную около 2020 года специально для повышения точности определения дикторов в шумных условиях. Это дало заметный выигрыш. Также экспериментировали с совместным определением речевых сегментов и дикторов в одном шаге – вместо двух раздельных.

В распознавании речи улучшения достигались за счёт использования более крупных предобученных моделей и их настройки на индийские акценты и медицинскую лексику. Применялась техника SpecAugment – случайное «закрашивание» частей звукового спектра во время обучения, что делает модель устойчивее к реальным искажениям.

В классификации тем хорошие результаты показали медицинские языковые модели, дообученные на специализированных текстах. Некоторые команды попробовали обучать систему одновременно на нескольких связанных задачах – это помогло модели лучше обобщать знания.

В суммировании экспериментировали с более мощными архитектурами, а также с гибридным подходом: сначала выделять ключевые фразы и предложения, а потом уже на их основе генерировать резюме.

Но вот главный вывод, который организаторы сформулировали прямо: ни одна из систем не достигла уровня, достаточного для реального применения в медицине. Даже лучшие результаты оставались далеко от той точности, которая была бы приемлема, если бы система реально влияла на медицинскую документацию или помогала врачу принимать решения.

Почему распознавание речи ИИ в медицине так сложно

Почему это так сложно

Если попытаться объяснить через аналогию: представьте, что вас просят одновременно разобрать речь двух людей, которые говорят вполголоса в шумном кафе, периодически переходят с русского на татарский и обратно, используют профессиональный жаргон и иногда перебивают друг друга. При этом вы должны не просто записать слова, но и понять структуру разговора, а в конце составить протокол. Сложно? Это именно то, что требуется от системы.

Исследователи выделили несколько ключевых причин, почему задача оказалась такой трудной.

Первая – сложность реальных данных. Спонтанная речь, шум, перекрытия – всё это принципиально отличается от условий, в которых обычно обучают и тестируют речевые системы. Большинство публичных бенчмарков используют более «чистые» данные, и системы, хорошо работающие там, резко теряют в качестве при встрече с настоящей полевой записью.

Вторая причина – языковой барьер. Существующие многоязычные модели обучены на данных, где индийские языки представлены непропорционально мало по сравнению с английским. А смешение языков внутри одного предложения – это вообще отдельная лингвистическая реальность, для которой специальных инструментов почти нет.

Третья причина – медицинская специфика. Общие языковые модели не знают, что «амлодипин» – это название лекарства, а не случайный набор звуков. Без специализированного обучения на медицинских данных система будет стабильно ошибаться на терминах, которые встречаются в каждом втором предложении врача.

Четвёртая причина – системная взаимозависимость. Ошибка на первом шаге (неверно определили, кто говорит) накапливается и усиливается на каждом следующем. Если диаризация путает врача и пациента, то и расшифровка будет неверной, и классификация тем – и резюме в итоге окажется бессмысленным. Это принципиальное отличие от задач, где каждый шаг независим.

Что это значит для применения ИИ в медицине

Что это означает на практике

Честный ответ на вопрос «когда ИИ будет нормально понимать врача на приёме» звучит так: не скоро, и это требует серьёзной работы, а не просто очередной итерации существующих моделей.

Что конкретно нужно? Во-первых, гораздо больше размеченных медицинских данных на индийских языках. Набор данных DISPLACE-M – это важный шаг, но 35 часов записей катастрофически мало для обучения надёжных систем. Для сравнения: крупные англоязычные датасеты для распознавания речи измеряются тысячами часов.

Во-вторых, нужны модели, специально разработанные для работы с языковыми смесями – когда в одном предложении совмещаются несколько языков. Это не экзотика, это повседневная реальность миллионов медицинских взаимодействий.

В-третьих, необходимо более глубокое понимание акустики реальных медицинских пространств: как обрабатывать шум конкретного типа, как бороться с эхом в небольших помещениях, как работать с записями, сделанными на дешёвые микрофоны.

И наконец, нужен честный стандарт оценки. DISPLACE-M – это именно попытка создать такой стандарт. Не показывать красивые цифры на чистых данных, а проверять системы на том, с чем им реально придётся работать. Это болезненно для разработчиков, зато полезно для прогресса.

Почему проблема распознавания речи ИИ в медицине важна

Почему это важнее, чем кажется

Легко отмахнуться: ну, ИИ не понимает разговоры врача в индийском медицинском лагере – кому до этого дело? На самом деле – очень многим.

Дефицит медицинского персонала – глобальная проблема. По данным ВОЗ, к 2030 году мировой дефицит медработников может составить около 10 миллионов человек. Системы, способные автоматизировать документирование и рутинный анализ разговоров, могут освободить врачей от бумажной работы и позволить им принять больше пациентов. Но только если эти системы работают надёжно – а не генерируют ошибки в медицинских записях.

Именно поэтому планка должна быть высокой. Именно поэтому честный бенчмарк на реальных полевых данных важнее красивой демонстрации на студийных записях.

DISPLACE-M показал: работа только начинается. И это, как ни странно, хорошая новость – потому что теперь хотя бы понятно, где именно находится реальный фронт работ.

Оригинальное название: Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge
Дата публикации статьи: 3 мар 2026
Авторы оригинальной статьи : Dhanya E, Ankita Meena, Manas Nanivadekar, Noumida A, Victor Azad, Ashwini Nagaraj Shenoy, Pratik Roy Chowdhuri, Shobhit Banga, Vanshika Chhabra, Chitralekha Bhat, Shareef babu Kalluri, Srikanth Raj Chetupalli, Deepu Vijayasenan, Sriram Ganapathy
Предыдущая статья Когда видна лишь часть игры: как экономисты угадывают правила по чужим ходам Следующая статья Правило Лейбница и гиперсилы: как математика помогает понять поведение жидкостей

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Исследователи из ОАЭ создали набор тестов для проверки того, насколько хорошо большие языковые модели справляются с эмиратским диалектом арабского языка.

Hugging Facehuggingface.co 27 янв 2026

Центр L7 провёл независимое исследование алгоритма «Цельс» на маммографических снимках – система показала высокую точность в выявлении патологий молочной железы.

Цельсcelsus.ai 26 янв 2026

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Теоретическая глубина

81%

Реализм

95%

Склонность к полемике

88%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
Gemini 2.5 Flash Google DeepMind Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

Gemini 2.5 Flash Google DeepMind
2.
Claude Sonnet 4.6 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4.6 Anthropic
3.
Gemini 2.5 Flash Google DeepMind Редакторская проверка Исправление ошибок и уточнение выводов

3. Редакторская проверка

Исправление ошибок и уточнение выводов

Gemini 2.5 Flash Google DeepMind
4.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

4. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
5.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

5. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться