Опубликовано 9 июля 2025

Как очистить голос от шума: GAN-сети и DeepFilterGAN

Как сделать голос чистым при -40°C: GAN-сети против сибирских помех

Новая система DeepFilterGAN очищает речь от шума в реальном времени, используя всего 3.6 млн параметров – компактно и эффективно для суровых условий.

Электротехника и системные науки 5 – 8 минут чтения

Автор публикации: Доктор Алексей Петров 5 – 8 минут чтения

Когда вы разговариваете по телефону в центре Новосибирска в январе, ваш голос должен пробиться через ветер, шум машин и треск морозного воздуха. Современные алгоритмы обработки речи часто сдаются перед такими вызовами. Но что если я скажу, что появилась технология, которая может сделать ваш голос кристально чистым даже в самых суровых условиях?

Проблема очистки голоса: ограничения алгоритмов

Проблема: когда алгоритмы слишком стараются

Представьте ситуацию: вы находитесь на строительной площадке в Академгородке, вокруг работают экскаваторы, а вам нужно провести важный видеозвонок. Современные системы шумоподавления часто ведут себя как чрезмерно усердный дворник – вместе с мусором они выметают и полезные вещи.

Существующие алгоритмы делятся на два лагеря. Первые – предсказательные модели – работают по принципу «лучше перебдеть». Они анализируют входящий сигнал и выдают некий усредненный результат. Проблема в том, что вместе с шумом они часто удаляют и важные элементы речи. Получается эффект «робота в банке» – технически шума нет, но и голос звучит неестественно.

Вторые – генеративные модели – пытаются восстановить детали, но иногда добавляют артефакты, которых в оригинале не было. Это как реставратор, который не просто очищает картину, а дорисовывает то, что, по его мнению, там должно было быть.

Решение: двухэтапная очистка речи DeepFilterGAN

Решение: двухэтапная очистка по-сибирски

Команда исследователей предложила систему DeepFilterGAN, которая работает как хорошая производственная линия – каждый этап выполняет свою задачу, а результат получается лучше, чем при работе любого отдельного компонента.

Первый этап: грубая очистка

Здесь работает DeepFilterNet – система, которая убирает основную массу шума. Она анализирует речь в частотной области и удаляет очевидные помехи. Этот этап содержит 2.31 миллиона параметров – для современных нейросетей это довольно скромно.

Алгоритм работает в два шага. Сначала он улучшает общую структуру речи в так называемой области эквивалентной прямоугольной полосы – это способ представления звука, который лучше соответствует восприятию человеческого уха. Затем происходит уточнение в комплексной области, где учитываются фазовые характеристики сигнала.

Второй этап: точная доводка

Здесь в игру вступают генеративные состязательные сети (GAN). Если объяснять простыми словами, это две нейросети, которые играют в игру «полицейские и воры». Одна сеть (генератор) пытается создать максимально реалистичную речь, а другая (дискриминатор) пытается отличить настоящую речь от созданной искусственно.

Генератор получает на вход два сигнала: зашумленную исходную речь и результат первого этапа очистки. Это ключевая особенность системы – использование исходного «грязного» сигнала помогает восстановить детали, которые были потеряны на первом этапе.

Архитектура генератора основана на Online SpatialNet – это модель, которая умеет учитывать не только временные, но и пространственные характеристики звука. Дискриминатор построен по принципу MelGAN и использует многомасштабную архитектуру – он одновременно анализирует разные частотные диапазоны.

Технические характеристики DeepFilterGAN

Технические характеристики: когда размер имеет значение

Полная система весит всего 3.58 миллиона параметров. Чтобы понять, насколько это мало, сравните с современными языковыми моделями, которые содержат миллиарды параметров. При этом система работает в реальном времени и может обрабатывать аудио с частотой дискретизации 48 кГц.

Время задержки минимально – это критично для применений вроде видеозвонков или радиосвязи. Представьте водителя снегоуборочной машины, который должен поддерживать связь с диспетчером в условиях работающего двигателя и метели – каждая миллисекунда задержки может быть критичной.

Обучение нейросети DeepFilterGAN

Обучение: как научить машину понимать шум

Система обучалась на датасете 2025 Urgent Challenge, который включает речь с различными типами искажений. Это не только традиционный шум, но и реверберация (эхо в помещении), обрезка сигнала, потери пакетов при передаче данных и другие реальные проблемы.

Обучение проходило в два этапа. Сначала 45 эпох обучался первый этап системы, используя комбинацию различных функций потерь. Это спектральная потеря (насколько точно восстанавливается частотный состав), многомасштабная потеря спектрограммы, локальная оценка отношения сигнал-шум и L1-потеря мел-спектрограммы.

Затем первый этап фиксировался, и начиналось обучение GAN-сети – еще 200 эпох. Здесь использовались hinge-потери для состязательного обучения и дополнительная L1-потеря во временной области для стабилизации процесса.

Результаты тестирования DeepFilterGAN

Результаты: цифры, которые говорят сами за себя

Тестирование показало, что DeepFilterGAN улучшает качество речи по сравнению с первым этапом по метрике NISQA-MOS – это стандартная оценка качества речи, которая хорошо коррелирует с субъективным восприятием человека.

Особенно важным оказалось включение зашумленного исходного сигнала в качестве второго входа генератора. Без этого система теряла способность восстанавливать сегменты речи, которые были чрезмерно подавлены на первом этапе.

Сравнение с более тяжелыми моделями вроде UNIVERSE++ показало, что DeepFilterGAN достигает высокой общей оценки, превосходя конкурентов в балансе между качеством и быстродействием. Это особенно важно для практических применений – лучше иметь хорошее качество с минимальной задержкой, чем идеальное качество, но с заметными задержками.

Принцип работы стохастической регенерации DeepFilterGAN

Принцип работы стохастической регенерации

Ключевая идея системы – стохастическая регенерация. Предсказательные модели всегда стремятся к некоему «среднему» результату. Если в обучающих данных есть десять вариантов произношения одного звука, модель выдаст нечто усредненное между ними. Это приводит к потере естественности.

Генеративные модели, наоборот, пытаются изучить все распределение возможных вариантов. Они могут выбрать любой из этих десяти вариантов произношения, но с правильной вероятностью. Это делает результат более естественным, но иногда приводит к появлению артефактов.

Комбинирование двух подходов позволяет получить стабильный результат первого этапа и естественность второго. Генератор видит, что именно было «задумано» системой на первом этапе, но также имеет доступ к исходному сигналу со всеми его особенностями.

Практические применения DeepFilterGAN

Практические применения

Система подходит для широкого спектра задач. Это мобильная связь в условиях сильных помех, видеоконференции из шумных офисов, радиосвязь на производстве, обработка записей интервью в неидеальных акустических условиях.

Особенно важно, что система работает потоково – она может обрабатывать звук по мере его поступления, не дожидаясь окончания записи. Это критично для интерактивных применений.

Компактность архитектуры позволяет запускать систему даже на мобильных устройствах или встраиваемых системах с ограниченными вычислительными ресурсами.

Направления развития технологии DeepFilterGAN

Направления развития

Исследователи видят несколько путей улучшения системы. Первый – совместное обучение обеих стадий вместо последовательного. Это может улучшить общую согласованность работы компонентов.

Второй – анализ роли блока Mamba во второй стадии. Это относительно новая архитектура, которая может обеспечить лучший баланс между качеством и скоростью работы.

Третий – адаптация к специфическим типам помех. Система обучалась на разнообразном датасете, но для конкретных применений может потребоваться дополнительная настройка.

Заключение о DeepFilterGAN

Заключение

DeepFilterGAN представляет собой практичное решение для очистки речи в реальном времени. Система доказывает, что не всегда нужны гигантские модели – иногда правильная архитектура важнее размера.

Основные преимущества подхода: компактность (3.58 млн параметров), работа в реальном времени, эффективное использование исходного зашумленного сигнала для восстановления потерянных деталей, высокое качество выходного сигнала.

Технология готова к практическому применению в условиях, где каждый байт памяти и каждая миллисекунда задержки имеют значение. А это именно те условия, в которых должны работать настоящие технологии.

#прикладной разбор #технический контекст #нейросети #машинное обучение #инженерия #продукты #данные

Источник: https://arxiv.org/abs/2505.23515v1

Оригинальное название: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration

Дата публикации статьи: 29 мая 2025

Авторы оригинальной статьи : Sanberk Serbest, Tijana Stojkovic, Milos Cernak, Andrew Harper

Доктор Алексей Петров Открыть профиль

«Технологии должны работать при -40°C. Иначе это просто игрушки.»

Открыть профиль

Я инженер, который не верит в технологии до тех пор, пока они не выдержат сибирскую зиму. Разрабатываю энергосети и сенсоры, способные работать там, где другие сдаются. Моя цель – чтобы наука перестала бояться реальности.

Предыдущая статья Почему экономисты играют в рулетку с данными? История о том, как математика победила случай Следующая статья Квантовый дирижёр: как флаксониум управляет симфонией света и материи

Как очистить голос от шума: GAN-сети и DeepFilterGAN

Проблема очистки голоса: ограничения алгоритмов

Решение: двухэтапная очистка речи DeepFilterGAN

Первый этап: грубая очистка

Второй этап: точная доводка

Технические характеристики DeepFilterGAN

Обучение нейросети DeepFilterGAN

Результаты тестирования DeepFilterGAN

Принцип работы стохастической регенерации DeepFilterGAN

Практические применения DeepFilterGAN

Направления развития технологии DeepFilterGAN

Заключение о DeepFilterGAN

Связанные публикации

SEED: Как очистить голос от шума без лишних хлопот

Как заставить искусственный интеллект говорить экономнее: речевые кодеки с переменной частотой

Как заставить нейросети работать как сибирские системы управления

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Создание иллюстрации