Опубликовано 9 июля 2025

Как очистить голос от шума: GAN-сети и DeepFilterGAN

Как сделать голос чистым при -40°C: GAN-сети против сибирских помех

Новая система DeepFilterGAN очищает речь от шума в реальном времени, используя всего 3.6 млн параметров – компактно и эффективно для суровых условий.

Электротехника и системные науки 5 – 8 минут чтения
Автор публикации: Доктор Алексей Петров 5 – 8 минут чтения

Когда вы разговариваете по телефону в центре Новосибирска в январе, ваш голос должен пробиться через ветер, шум машин и треск морозного воздуха. Современные алгоритмы обработки речи часто сдаются перед такими вызовами. Но что если я скажу, что появилась технология, которая может сделать ваш голос кристально чистым даже в самых суровых условиях?

Проблема очистки голоса: ограничения алгоритмов

Проблема: когда алгоритмы слишком стараются

Представьте ситуацию: вы находитесь на строительной площадке в Академгородке, вокруг работают экскаваторы, а вам нужно провести важный видеозвонок. Современные системы шумоподавления часто ведут себя как чрезмерно усердный дворник – вместе с мусором они выметают и полезные вещи.

Существующие алгоритмы делятся на два лагеря. Первые – предсказательные модели – работают по принципу «лучше перебдеть». Они анализируют входящий сигнал и выдают некий усредненный результат. Проблема в том, что вместе с шумом они часто удаляют и важные элементы речи. Получается эффект «робота в банке» – технически шума нет, но и голос звучит неестественно.

Вторые – генеративные модели – пытаются восстановить детали, но иногда добавляют артефакты, которых в оригинале не было. Это как реставратор, который не просто очищает картину, а дорисовывает то, что, по его мнению, там должно было быть.

Решение: двухэтапная очистка речи DeepFilterGAN

Решение: двухэтапная очистка по-сибирски

Команда исследователей предложила систему DeepFilterGAN, которая работает как хорошая производственная линия – каждый этап выполняет свою задачу, а результат получается лучше, чем при работе любого отдельного компонента.

Первый этап: грубая очистка

Здесь работает DeepFilterNet – система, которая убирает основную массу шума. Она анализирует речь в частотной области и удаляет очевидные помехи. Этот этап содержит 2.31 миллиона параметров – для современных нейросетей это довольно скромно.

Алгоритм работает в два шага. Сначала он улучшает общую структуру речи в так называемой области эквивалентной прямоугольной полосы – это способ представления звука, который лучше соответствует восприятию человеческого уха. Затем происходит уточнение в комплексной области, где учитываются фазовые характеристики сигнала.

Второй этап: точная доводка

Здесь в игру вступают генеративные состязательные сети (GAN). Если объяснять простыми словами, это две нейросети, которые играют в игру «полицейские и воры». Одна сеть (генератор) пытается создать максимально реалистичную речь, а другая (дискриминатор) пытается отличить настоящую речь от созданной искусственно.

Генератор получает на вход два сигнала: зашумленную исходную речь и результат первого этапа очистки. Это ключевая особенность системы – использование исходного «грязного» сигнала помогает восстановить детали, которые были потеряны на первом этапе.

Архитектура генератора основана на Online SpatialNet – это модель, которая умеет учитывать не только временные, но и пространственные характеристики звука. Дискриминатор построен по принципу MelGAN и использует многомасштабную архитектуру – он одновременно анализирует разные частотные диапазоны.

Технические характеристики DeepFilterGAN

Технические характеристики: когда размер имеет значение

Полная система весит всего 3.58 миллиона параметров. Чтобы понять, насколько это мало, сравните с современными языковыми моделями, которые содержат миллиарды параметров. При этом система работает в реальном времени и может обрабатывать аудио с частотой дискретизации 48 кГц.

Время задержки минимально – это критично для применений вроде видеозвонков или радиосвязи. Представьте водителя снегоуборочной машины, который должен поддерживать связь с диспетчером в условиях работающего двигателя и метели – каждая миллисекунда задержки может быть критичной.

Обучение нейросети DeepFilterGAN

Обучение: как научить машину понимать шум

Система обучалась на датасете 2025 Urgent Challenge, который включает речь с различными типами искажений. Это не только традиционный шум, но и реверберация (эхо в помещении), обрезка сигнала, потери пакетов при передаче данных и другие реальные проблемы.

Обучение проходило в два этапа. Сначала 45 эпох обучался первый этап системы, используя комбинацию различных функций потерь. Это спектральная потеря (насколько точно восстанавливается частотный состав), многомасштабная потеря спектрограммы, локальная оценка отношения сигнал-шум и L1-потеря мел-спектрограммы.

Затем первый этап фиксировался, и начиналось обучение GAN-сети – еще 200 эпох. Здесь использовались hinge-потери для состязательного обучения и дополнительная L1-потеря во временной области для стабилизации процесса.

Результаты тестирования DeepFilterGAN

Результаты: цифры, которые говорят сами за себя

Тестирование показало, что DeepFilterGAN улучшает качество речи по сравнению с первым этапом по метрике NISQA-MOS – это стандартная оценка качества речи, которая хорошо коррелирует с субъективным восприятием человека.

Особенно важным оказалось включение зашумленного исходного сигнала в качестве второго входа генератора. Без этого система теряла способность восстанавливать сегменты речи, которые были чрезмерно подавлены на первом этапе.

Сравнение с более тяжелыми моделями вроде UNIVERSE++ показало, что DeepFilterGAN достигает высокой общей оценки, превосходя конкурентов в балансе между качеством и быстродействием. Это особенно важно для практических применений – лучше иметь хорошее качество с минимальной задержкой, чем идеальное качество, но с заметными задержками.

Принцип работы стохастической регенерации DeepFilterGAN

Принцип работы стохастической регенерации

Ключевая идея системы – стохастическая регенерация. Предсказательные модели всегда стремятся к некоему «среднему» результату. Если в обучающих данных есть десять вариантов произношения одного звука, модель выдаст нечто усредненное между ними. Это приводит к потере естественности.

Генеративные модели, наоборот, пытаются изучить все распределение возможных вариантов. Они могут выбрать любой из этих десяти вариантов произношения, но с правильной вероятностью. Это делает результат более естественным, но иногда приводит к появлению артефактов.

Комбинирование двух подходов позволяет получить стабильный результат первого этапа и естественность второго. Генератор видит, что именно было «задумано» системой на первом этапе, но также имеет доступ к исходному сигналу со всеми его особенностями.

Практические применения DeepFilterGAN

Практические применения

Система подходит для широкого спектра задач. Это мобильная связь в условиях сильных помех, видеоконференции из шумных офисов, радиосвязь на производстве, обработка записей интервью в неидеальных акустических условиях.

Особенно важно, что система работает потоково – она может обрабатывать звук по мере его поступления, не дожидаясь окончания записи. Это критично для интерактивных применений.

Компактность архитектуры позволяет запускать систему даже на мобильных устройствах или встраиваемых системах с ограниченными вычислительными ресурсами.

Направления развития технологии DeepFilterGAN

Направления развития

Исследователи видят несколько путей улучшения системы. Первый – совместное обучение обеих стадий вместо последовательного. Это может улучшить общую согласованность работы компонентов.

Второй – анализ роли блока Mamba во второй стадии. Это относительно новая архитектура, которая может обеспечить лучший баланс между качеством и скоростью работы.

Третий – адаптация к специфическим типам помех. Система обучалась на разнообразном датасете, но для конкретных применений может потребоваться дополнительная настройка.

Заключение о DeepFilterGAN

Заключение

DeepFilterGAN представляет собой практичное решение для очистки речи в реальном времени. Система доказывает, что не всегда нужны гигантские модели – иногда правильная архитектура важнее размера.

Основные преимущества подхода: компактность (3.58 млн параметров), работа в реальном времени, эффективное использование исходного зашумленного сигнала для восстановления потерянных деталей, высокое качество выходного сигнала.

Технология готова к практическому применению в условиях, где каждый байт памяти и каждая миллисекунда задержки имеют значение. А это именно те условия, в которых должны работать настоящие технологии.

Оригинальное название: DeepFilterGAN: A Full-band Real-time Speech Enhancement System with GAN-based Stochastic Regeneration
Дата публикации статьи: 29 мая 2025
Авторы оригинальной статьи : Sanberk Serbest, Tijana Stojkovic, Milos Cernak, Andrew Harper
Предыдущая статья Почему экономисты играют в рулетку с данными? История о том, как математика победила случай Следующая статья Квантовый дирижёр: как флаксониум управляет симфонией света и материи

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Лаборатория

SEED: Как очистить голос от шума без лишних хлопот

Электротехника и системные науки

Диффузионная модель SEED улучшает распознавание голоса в реальных условиях на 19,6% без перестройки систем и меток говорящих.

Доктор Алексей Петров 3 июн 2025

Новая технология речевых кодеков адаптирует частоту обработки под сложность сигнала, экономя ресурсы без потери качества звука.

Доктор Алексей Петров 21 июн 2025

Лаборатория

Как заставить нейросети работать как сибирские системы управления

Электротехника и системные науки

Новый подход к селекции данных в нейросетях на основе проверенных временем методов теории управления – стабильно и без капризов.

Доктор Алексей Петров 27 июн 2025

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Реализм

95%

Международная вовлечённость

70%

Теоретическая глубина

81%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
GPT-4-turbo OpenAI Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

GPT-4-turbo OpenAI
2.
Claude Sonnet 4 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4 Anthropic
3.
Phoenix 1.0 Leonardo AI Создание иллюстрации Генерация изображения по подготовленному промпту

3. Создание иллюстрации

Генерация изображения по подготовленному промпту

Phoenix 1.0 Leonardo AI

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться