Реализм
Международная вовлечённость
Теоретическая глубина
Когда вы разговариваете по телефону в центре Новосибирска в январе, ваш голос должен пробиться через ветер, шум машин и треск морозного воздуха. Современные алгоритмы обработки речи часто сдаются перед такими вызовами. Но что если я скажу, что появилась технология, которая может сделать ваш голос кристально чистым даже в самых суровых условиях?
Проблема: когда алгоритмы слишком стараются
Представьте ситуацию: вы находитесь на строительной площадке в Академгородке, вокруг работают экскаваторы, а вам нужно провести важный видеозвонок. Современные системы шумоподавления часто ведут себя как чрезмерно усердный дворник – вместе с мусором они выметают и полезные вещи.
Существующие алгоритмы делятся на два лагеря. Первые – предсказательные модели – работают по принципу «лучше перебдеть». Они анализируют входящий сигнал и выдают некий усредненный результат. Проблема в том, что вместе с шумом они часто удаляют и важные элементы речи. Получается эффект «робота в банке» – технически шума нет, но и голос звучит неестественно.
Вторые – генеративные модели – пытаются восстановить детали, но иногда добавляют артефакты, которых в оригинале не было. Это как реставратор, который не просто очищает картину, а дорисовывает то, что, по его мнению, там должно было быть.
Решение: двухэтапная очистка по-сибирски
Команда исследователей предложила систему DeepFilterGAN, которая работает как хорошая производственная линия – каждый этап выполняет свою задачу, а результат получается лучше, чем при работе любого отдельного компонента.
Первый этап: грубая очистка
Здесь работает DeepFilterNet – система, которая убирает основную массу шума. Она анализирует речь в частотной области и удаляет очевидные помехи. Этот этап содержит 2.31 миллиона параметров – для современных нейросетей это довольно скромно.
Алгоритм работает в два шага. Сначала он улучшает общую структуру речи в так называемой области эквивалентной прямоугольной полосы – это способ представления звука, который лучше соответствует восприятию человеческого уха. Затем происходит уточнение в комплексной области, где учитываются фазовые характеристики сигнала.
Второй этап: точная доводка
Здесь в игру вступают генеративные состязательные сети (GAN). Если объяснять простыми словами, это две нейросети, которые играют в игру «полицейские и воры». Одна сеть (генератор) пытается создать максимально реалистичную речь, а другая (дискриминатор) пытается отличить настоящую речь от созданной искусственно.
Генератор получает на вход два сигнала: зашумленную исходную речь и результат первого этапа очистки. Это ключевая особенность системы – использование исходного «грязного» сигнала помогает восстановить детали, которые были потеряны на первом этапе.
Архитектура генератора основана на Online SpatialNet – это модель, которая умеет учитывать не только временные, но и пространственные характеристики звука. Дискриминатор построен по принципу MelGAN и использует многомасштабную архитектуру – он одновременно анализирует разные частотные диапазоны.
Технические характеристики: когда размер имеет значение
Полная система весит всего 3.58 миллиона параметров. Чтобы понять, насколько это мало, сравните с современными языковыми моделями, которые содержат миллиарды параметров. При этом система работает в реальном времени и может обрабатывать аудио с частотой дискретизации 48 кГц.
Время задержки минимально – это критично для применений вроде видеозвонков или радиосвязи. Представьте водителя снегоуборочной машины, который должен поддерживать связь с диспетчером в условиях работающего двигателя и метели – каждая миллисекунда задержки может быть критичной.
Обучение: как научить машину понимать шум
Система обучалась на датасете 2025 Urgent Challenge, который включает речь с различными типами искажений. Это не только традиционный шум, но и реверберация (эхо в помещении), обрезка сигнала, потери пакетов при передаче данных и другие реальные проблемы.
Обучение проходило в два этапа. Сначала 45 эпох обучался первый этап системы, используя комбинацию различных функций потерь. Это спектральная потеря (насколько точно восстанавливается частотный состав), многомасштабная потеря спектрограммы, локальная оценка отношения сигнал-шум и L1-потеря мел-спектрограммы.
Затем первый этап фиксировался, и начиналось обучение GAN-сети – еще 200 эпох. Здесь использовались hinge-потери для состязательного обучения и дополнительная L1-потеря во временной области для стабилизации процесса.
Результаты: цифры, которые говорят сами за себя
Тестирование показало, что DeepFilterGAN улучшает качество речи по сравнению с первым этапом по метрике NISQA-MOS – это стандартная оценка качества речи, которая хорошо коррелирует с субъективным восприятием человека.
Особенно важным оказалось включение зашумленного исходного сигнала в качестве второго входа генератора. Без этого система теряла способность восстанавливать сегменты речи, которые были чрезмерно подавлены на первом этапе.
Сравнение с более тяжелыми моделями вроде UNIVERSE++ показало, что DeepFilterGAN достигает высокой общей оценки, превосходя конкурентов в балансе между качеством и быстродействием. Это особенно важно для практических применений – лучше иметь хорошее качество с минимальной задержкой, чем идеальное качество, но с заметными задержками.
Принцип работы стохастической регенерации
Ключевая идея системы – стохастическая регенерация. Предсказательные модели всегда стремятся к некоему «среднему» результату. Если в обучающих данных есть десять вариантов произношения одного звука, модель выдаст нечто усредненное между ними. Это приводит к потере естественности.
Генеративные модели, наоборот, пытаются изучить все распределение возможных вариантов. Они могут выбрать любой из этих десяти вариантов произношения, но с правильной вероятностью. Это делает результат более естественным, но иногда приводит к появлению артефактов.
Комбинирование двух подходов позволяет получить стабильный результат первого этапа и естественность второго. Генератор видит, что именно было «задумано» системой на первом этапе, но также имеет доступ к исходному сигналу со всеми его особенностями.
Практические применения
Система подходит для широкого спектра задач. Это мобильная связь в условиях сильных помех, видеоконференции из шумных офисов, радиосвязь на производстве, обработка записей интервью в неидеальных акустических условиях.
Особенно важно, что система работает потоково – она может обрабатывать звук по мере его поступления, не дожидаясь окончания записи. Это критично для интерактивных применений.
Компактность архитектуры позволяет запускать систему даже на мобильных устройствах или встраиваемых системах с ограниченными вычислительными ресурсами.
Направления развития
Исследователи видят несколько путей улучшения системы. Первый – совместное обучение обеих стадий вместо последовательного. Это может улучшить общую согласованность работы компонентов.
Второй – анализ роли блока Mamba во второй стадии. Это относительно новая архитектура, которая может обеспечить лучший баланс между качеством и скоростью работы.
Третий – адаптация к специфическим типам помех. Система обучалась на разнообразном датасете, но для конкретных применений может потребоваться дополнительная настройка.
Заключение
DeepFilterGAN представляет собой практичное решение для очистки речи в реальном времени. Система доказывает, что не всегда нужны гигантские модели – иногда правильная архитектура важнее размера.
Основные преимущества подхода: компактность (3.58 млн параметров), работа в реальном времени, эффективное использование исходного зашумленного сигнала для восстановления потерянных деталей, высокое качество выходного сигнала.
Технология готова к практическому применению в условиях, где каждый байт памяти и каждая миллисекунда задержки имеют значение. А это именно те условия, в которых должны работать настоящие технологии.