Представьте: врач надиктовывает назначение, медсестра фиксирует инструкции к выписке, фармацевт записывает рекомендации пациенту – и всё это посредством голосовых инструментов с автоматической расшифровкой речи. Звучит удобно, но что произойдёт, если система услышит «Хумира», а запишет нечто совершенно иное? В медицине подобная ошибка является не просто опечаткой.
Именно этим вопросом задались исследователи AssemblyAI: насколько точно современные системы распознавания речи справляются с фармацевтическими названиями? Результаты оказались неоднозначными и заслуживают внимания всех, кто работает на стыке медицины и технологий.
Почему лекарства – это особый случай
Названия препаратов – одна из самых сложных категорий слов для любой системы распознавания речи. Они не подчиняются обычной логике языка: это искусственно созданные слова, нередко схожие по звучанию, но совершенно разные по действию. Спутать «Celebrex» и «Cerebyx» при записи легко, а ведь первый применяется при артрите, второй – противосудорожный препарат.
Добавьте к этому разнообразие акцентов, профессиональный жаргон, фоновый шум в клинике – и задача становится по-настоящему нетривиальной. Системы транскрибации обучались на огромных объёмах общего текста и речи, но фармацевтическая лексика в этих данных представлена слабо. Модель просто не «видела» эти слова достаточно часто, чтобы уверенно их воспроизводить.
Как проводилась проверка
Исследователи взяли 50 широко используемых фармацевтических препаратов – как торговые названия («Липитор», «Виагра», «Адерол»), так и непатентованные («аторвастатин», «силденафил», «амфетамин»). Для каждого названия записали аудиофрагменты в нескольких вариантах произношения и с различными условиями записи.
Затем эти записи прогнали через несколько популярных систем транскрибации. Точность измеряли по стандартной метрике – доле ошибочно распознанных слов. Проще говоря: сколько раз система написала не то, что было произнесено.
Дополнительно проверяли, помогает ли так называемый кастомный словарь – возможность заранее передать модели список специфических слов для учёта при расшифровке.
Что показало исследование
Общая картина такова: все протестированные системы допускали ошибки в названиях препаратов значительно чаще, чем в обычной речи. Однако разница между моделями оказалась существенной.
Лучший результат показала модель Best от AssemblyAI – она достигла точности около 80% для фармацевтических названий без каких-либо дополнительных настроек. Это заметно выше, чем у конкурентов в базовом режиме.
При использовании кастомного словаря точность модели выросла до 90% и выше. То есть, если заранее «подсказать» системе, какие слова могут встретиться, – она справляется значительно лучше.
Для сравнения: другие протестированные системы в базовом режиме показали точность от 40% до 60% на тех же данных. Это означает, что почти каждое второе название препарата могло быть распознано неверно.
Торговые против непатентованных: есть ли разница
Да, и довольно заметная. Непатентованные (международные) названия – такие как «метформин» или «амоксициллин» – встречаются в текстах чаще, они более предсказуемы по структуре. Модели справляются с ними несколько лучше.
Торговые названия – «Зипрекса», «Нексиум», «Ксарелто» – куда более непредсказуемы. Они могут звучать как выдуманные слова, потому что, в общем-то, так и есть. Система распознавания речи, не встречавшая такое слово в обучающих данных, нередко подбирает ближайший по звучанию знакомый вариант. Иногда это просто смешно, иногда – опасно.
Почему это важно за пределами клиники
Медицина – очевидный контекст. Но фармацевтические названия встречаются и за её пределами: в страховых документах, телемедицинских консультациях, аудиозаписях фармацевтических представителей, учебных материалах, подкастах о здоровье.
Везде, где есть голосовой ввод или автоматическая расшифровка – есть риск ошибки в названии препарата. И чем выше ставки, тем важнее знать, насколько можно доверять системе.
Это не призыв отказаться от ИИ-транскрибации в медицинском контексте, а скорее напоминание: инструмент нужно выбирать осознанно, понимая его ограничения.
Что с этим делать на практике
Если вы используете или планируете использовать голосовую транскрибацию в контексте, где встречаются названия препаратов, учтите несколько практических наблюдений из исследования:
- Кастомный словарь работает. Если система поддерживает возможность передать список специфических терминов – используйте её, так как прирост точности значительный.
- Базовая точность у разных систем сильно отличается. Не стоит выбирать инструмент вслепую – имеет смысл протестировать его именно на той лексике, которая вам важна.
- Непатентованные названия распознаются надёжнее. Если есть выбор между торговым и международным названием при диктовке – второй вариант с большей вероятностью будет распознан верно.
- Человеческая проверка остаётся важной. Даже 90% точности означает одну ошибку на десять слов. В медицинском документе это может быть критично.
Открытый вопрос
Исследование охватывает 50 препаратов – это достаточно репрезентативная выборка, но далеко не весь фармацевтический словарь. Реальная клиническая среда куда богаче: редкие препараты, новые торговые названия, региональные варианты произношения, аббревиатуры.
Кроме того, тест проводился в относительно контролируемых условиях. Как поведут себя системы с реальными записями из шумной клиники, с усталым голосом дежурного врача или нестандартным акцентом – это отдельный вопрос, который исследование не закрывает.
Тем не менее, даже в таком виде работа даёт полезный ориентир: не все системы одинаковы, разрыв между лучшими и средними – существенный, и возможности тонкой настройки реально влияют на результат.
Если вы работаете с голосовыми данными в медицинской или фармацевтической среде – это исследование стоит держать в голове при выборе инструментов.