Март у команды Sony AI выдался насыщенным. Исследователи закрыли сразу несколько направлений: вышла книга, объясняющая математические основы генеративных моделей; более десяти работ получили подтверждение на одну из ключевых конференций по обработке звука и речи; а руководитель направления AI-этики вошла в список ста самых влиятельных женщин в ИИ.
Ниже – о каждом из этих событий подробнее.
Книга, которую давно стоило написать
Диффузные модели – это один из главных инструментов современной генерации контента. Именно они лежат в основе систем, создающих изображения, звук и многое другое по текстовым описаниям. Но, несмотря на широкое распространение, разобраться в этой области бывает непросто: разные исследовательские сообщества шли к похожим идеям своими путями, и в итоге накопилось много пересекающейся терминологии и конкурирующих формулировок.
Книга The Principles of Diffusion Models – попытка навести в этом порядок. Её написал исследователь Sony AI Чиэ-Синь «Джесси» Лай в соавторстве с Янг Сонгом, Донджун Кимом и Стефано Эрмоном. Авторы показывают, что за разными подходами – DDPM, score-based моделями, flow-based методами – стоит единая математическая логика. Проще говоря, это не несколько разных технологий, а разные способы описать одно и то же.
В интервью Джесси объяснил, что хотел бы, чтобы после прочтения читатель умел ориентироваться в поле, а не просто воспроизводил конкретные техники. По его убеждению, базовые идеи в этой области живут дольше, чем конкретные методы, построенные на их основе.
Более десяти статей на ICASSP 2026
IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) – одна из главных площадок для исследований в области обработки звука, речи и сигналов. В этом году конференция пройдёт 4–8 мая 2026 года в Барселоне, и Sony AI выходит на неё с внушительным пакетом принятых работ.
Темы охватывают довольно широкий спектр.
Как модели «слышат» структуру музыки
Одна из работ исследует, насколько хорошо предобученные аудиомодели справляются с анализом музыкальной структуры – например, умеют ли они различать куплет и припев. Выяснилось, что самообучение на музыкальных данных с так называемым masked language modeling (маскированным языковым моделированием) особенно эффективно для этой задачи.
Звук и картинка – вместе и в нужном месте
Другая работа занимается проблемой, которую легко не заметить: в системах, генерирующих аудио и видео одновременно, звук и изображение часто не совпадают в пространстве. Исследователи предложили новый способ измерять это несоответствие и создали специальный бенчмарк – SAVGBench.
Чистка данных вслепую
Качество обучающих данных критично для любой модели. В музыкальной сепарации (задаче разделения смешанного аудио на отдельные источники) наборы данных нередко содержат скрытые артефакты. Авторы предложили два метода очистки, которые работают без знания о том, какой именно тип загрязнения присутствует в данных.
Разделение звуков по видео или тексту
MMAudioSep – это генеративная модель, которая умеет вычленять нужный звук из смеси, ориентируясь на видеоряд или текстовое описание. В основе – предобученная модель генерации аудио по видео, которую адаптировали под новую задачу.
Foley в реальном времени
FlashFoley – первая опенсорсная ускоренная модель для генерации звука по эскизу (sketch-to-audio). В кинопроизводстве Foley («фундаментальные шумы»») – это искусственно созданные звуки, которые накладываются на видео (шаги, скрип двери, дождь). FlashFoley позволяет делать это интерактивно и в реальном времени.
Поиск сэмплов в музыке
Ещё одна работа решает задачу автоматического определения того, использован ли в треке фрагмент другого произведения, и если да – какого именно. Подход основан на самообучении и, по данным авторов, заметно превосходит предыдущие методы.
Автоматическое сведение
MEGAMI (Multitrack Embedding Generative Auto Mixing) – генеративный фреймворк для автоматического сведения многодорожечной музыки. В отличие от детерминированных методов, он учитывает субъективность творческих решений: одну и ту же запись профессиональные звукорежиссёры могут свести по-разному, и это нормально.
Барабаны под контролем
Break-the-Beat! – инструмент для рендеринга барабанных партий (MIDI) с тембром из эталонного аудио. Проще говоря: можно задать паттерн барабанов и указать, каким «звуком» их сыграть – например, взятым из конкретной записи.
Эталон для оценки Foley-моделей
FoleyBench – первый крупномасштабный бенчмарк, специально созданный для оценки моделей, генерирующих звук по видео в стиле Foley. Включает 5 000 троек «видео – аудио – текст» с хорошим охватом типичных Foley-звуков.
Синхронизация текста и аудио
WEALY – пайплайн для сопоставления лирики с аудиозаписью. Используются эмбеддинги из модели Whisper, при этом подход воспроизводим: авторы намеренно сделали прозрачные и открытые базовые сравнения.
Распознавание речи при ограниченных данных
Последняя из принятых работ улучшает подход Summary Mixing для распознавания речи в условиях малого количества данных. Нововведение снижает пиковое потребление видеопамяти на 40%, что делает обучение доступнее с точки зрения ресурсов.
Элис Сян: этика как инструмент, а не декларация
Исследователь Sony AI Элис Сян – глава направления AI-этики в Sony Group – вошла в список Top 100 Women in AI for 2026 (100 лучших женщин в ИИ в 2026 году) по версии AI Magazine. Одновременно она приняла участие в подкасте «Me, Myself and AI» издания MIT Sloan Management Review, где рассказала о проекте FHIBE.
FHIBE (Fair Human-Centric Image Benchmark) – это первый публично доступный набор данных с согласия участников, созданный специально для оценки предвзятости в системах компьютерного зрения. Набор данных глобально разнообразен и охватывает широкий спектр задач, связанных с распознаванием людей. Он опубликован в Nature Magazine, доступен бесплатно и уже применяется в индустрии.
Проблема, которую решает FHIBE, довольно конкретна: чтобы проверить, насколько справедливо работает та или иная система компьютерного зрения, нужны репрезентативные данные, собранные с согласия людей, которые в них попали. Таких данных долгое время просто не существовало в открытом доступе. FHIBE закрывает этот пробел.
В разговоре с ведущим подкаста Сэмом Рансботэмом Элис объяснила, почему отсутствие этически собранных наборов данных – это не абстрактная проблема, а практическое препятствие для честной оценки ИИ-систем.