Опубликовано 2 апреля 2026

Sony AI в марте: диффузные модели, научные публикации и этика ИИ

Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя

Sony AI подвела итоги марта: новая книга о генеративных моделях, пакет исследований для ICASSP 2026 и признание Элис Сян в списке лучших.

Исследования / Технический контекст 4 – 6 минут чтения

Источник события: Sony AI 4 – 6 минут чтения

Март у команды Sony AI выдался насыщенным. Исследователи закрыли сразу несколько направлений: вышла книга, объясняющая математические основы генеративных моделей; более десяти работ получили подтверждение на одну из ключевых конференций по обработке звука и речи; а руководитель направления AI-этики вошла в список ста самых влиятельных женщин в ИИ.

Ниже – о каждом из этих событий подробнее.

Книга о принципах диффузных моделей

Книга, которую давно стоило написать

Диффузные модели – это один из главных инструментов современной генерации контента. Именно они лежат в основе систем, создающих изображения, звук и многое другое по текстовым описаниям. Но, несмотря на широкое распространение, разобраться в этой области бывает непросто: разные исследовательские сообщества шли к похожим идеям своими путями, и в итоге накопилось много пересекающейся терминологии и конкурирующих формулировок.

Книга The Principles of Diffusion Models – попытка навести в этом порядок. Её написал исследователь Sony AI Чиэ-Синь «Джесси» Лай в соавторстве с Янг Сонгом, Донджун Кимом и Стефано Эрмоном. Авторы показывают, что за разными подходами – DDPM, score-based моделями, flow-based методами – стоит единая математическая логика. Проще говоря, это не несколько разных технологий, а разные способы описать одно и то же.

В интервью Джесси объяснил, что хотел бы, чтобы после прочтения читатель умел ориентироваться в поле, а не просто воспроизводил конкретные техники. По его убеждению, базовые идеи в этой области живут дольше, чем конкретные методы, построенные на их основе.

Более десяти статей на конференции ICASSP 2026

Более десяти статей на ICASSP 2026

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) – одна из главных площадок для исследований в области обработки звука, речи и сигналов. В этом году конференция пройдёт 4–8 мая 2026 года в Барселоне, и Sony AI выходит на неё с внушительным пакетом принятых работ.

Темы охватывают довольно широкий спектр.

Как модели «слышат» структуру музыки

Одна из работ исследует, насколько хорошо предобученные аудиомодели справляются с анализом музыкальной структуры – например, умеют ли они различать куплет и припев. Выяснилось, что самообучение на музыкальных данных с так называемым masked language modeling (маскированным языковым моделированием) особенно эффективно для этой задачи.

Звук и картинка – вместе и в нужном месте

Другая работа занимается проблемой, которую легко не заметить: в системах, генерирующих аудио и видео одновременно, звук и изображение часто не совпадают в пространстве. Исследователи предложили новый способ измерять это несоответствие и создали специальный бенчмарк – SAVGBench.

Чистка данных вслепую

Качество обучающих данных критично для любой модели. В музыкальной сепарации (задаче разделения смешанного аудио на отдельные источники) наборы данных нередко содержат скрытые артефакты. Авторы предложили два метода очистки, которые работают без знания о том, какой именно тип загрязнения присутствует в данных.

Разделение звуков по видео или тексту

MMAudioSep – это генеративная модель, которая умеет вычленять нужный звук из смеси, ориентируясь на видеоряд или текстовое описание. В основе – предобученная модель генерации аудио по видео, которую адаптировали под новую задачу.

Foley в реальном времени

FlashFoley – первая опенсорсная ускоренная модель для генерации звука по эскизу (sketch-to-audio). В кинопроизводстве Foley («фундаментальные шумы»») – это искусственно созданные звуки, которые накладываются на видео (шаги, скрип двери, дождь). FlashFoley позволяет делать это интерактивно и в реальном времени.

Поиск сэмплов в музыке

Ещё одна работа решает задачу автоматического определения того, использован ли в треке фрагмент другого произведения, и если да – какого именно. Подход основан на самообучении и, по данным авторов, заметно превосходит предыдущие методы.

Автоматическое сведение

MEGAMI (Multitrack Embedding Generative Auto Mixing) – генеративный фреймворк для автоматического сведения многодорожечной музыки. В отличие от детерминированных методов, он учитывает субъективность творческих решений: одну и ту же запись профессиональные звукорежиссёры могут свести по-разному, и это нормально.

Барабаны под контролем

Break-the-Beat! – инструмент для рендеринга барабанных партий (MIDI) с тембром из эталонного аудио. Проще говоря: можно задать паттерн барабанов и указать, каким «звуком» их сыграть – например, взятым из конкретной записи.

Эталон для оценки Foley-моделей

FoleyBench – первый крупномасштабный бенчмарк, специально созданный для оценки моделей, генерирующих звук по видео в стиле Foley. Включает 5 000 троек «видео – аудио – текст» с хорошим охватом типичных Foley-звуков.

Синхронизация текста и аудио

WEALY – пайплайн для сопоставления лирики с аудиозаписью. Используются эмбеддинги из модели Whisper, при этом подход воспроизводим: авторы намеренно сделали прозрачные и открытые базовые сравнения.

Распознавание речи при ограниченных данных

Последняя из принятых работ улучшает подход Summary Mixing для распознавания речи в условиях малого количества данных. Нововведение снижает пиковое потребление видеопамяти на 40%, что делает обучение доступнее с точки зрения ресурсов.

Элис Сян об этике ИИ и проекте FHIBE

Элис Сян: этика как инструмент, а не декларация

Исследователь Sony AI Элис Сян – глава направления AI-этики в Sony Group – вошла в список Top 100 Women in AI for 2026 (100 лучших женщин в ИИ в 2026 году) по версии AI Magazine. Одновременно она приняла участие в подкасте «Me, Myself and AI» издания MIT Sloan Management Review, где рассказала о проекте FHIBE.

FHIBE (Fair Human-Centric Image Benchmark) – это первый публично доступный набор данных с согласия участников, созданный специально для оценки предвзятости в системах компьютерного зрения. Набор данных глобально разнообразен и охватывает широкий спектр задач, связанных с распознаванием людей. Он опубликован в Nature Magazine, доступен бесплатно и уже применяется в индустрии.

Проблема, которую решает FHIBE, довольно конкретна: чтобы проверить, насколько справедливо работает та или иная система компьютерного зрения, нужны репрезентативные данные, собранные с согласия людей, которые в них попали. Таких данных долгое время просто не существовало в открытом доступе. FHIBE закрывает этот пробел.

В разговоре с ведущим подкаста Сэмом Рансботэмом Элис объяснила, почему отсутствие этически собранных наборов данных – это не абстрактная проблема, а практическое препятствие для честной оценки ИИ-систем.

#событие #исследовательский обзор #нейросети #развитие ии #этика ии #математика #генеративные модели #ии для отраслей #женщины в науке

Ссылка на публикацию: https://ai.sony/blog/Advancing-AI-Highlights-from-March-2026/

Оригинальное название: Advancing AI: Highlights from March

Дата публикации: 1 апр 2026

Sony AI ai.sony Японское исследовательское подразделение Sony, занимающееся разработкой ИИ-технологий для творчества, робототехники, обработки изображений и анализа данных.

Предыдущая статья Как Salesforce обучает ИИ-агентов без огромных затрат Следующая статья Люди, которые заставляют GPU работать по-настоящему быстро: внутри команды Together AI

Sony AI в марте: диффузные модели, научные публикации и этика ИИ

Книга о принципах диффузных моделей

Более десяти статей на конференции ICASSP 2026

Как модели «слышат» структуру музыки

Звук и картинка – вместе и в нужном месте

Чистка данных вслепую

Разделение звуков по видео или тексту

Foley в реальном времени

Поиск сэмплов в музыке

Автоматическое сведение

Барабаны под контролем

Эталон для оценки Foley-моделей

Синхронизация текста и аудио

Распознавание речи при ограниченных данных

Элис Сян об этике ИИ и проекте FHIBE

Связанные публикации

Новая модель SciNO решает задачу восстановления причинно-следственных связей

M4-RAG: Когда ИИ ищет ответы не только в тексте, но и в картинках, причём на разных языках

Тайфун на EACL 2026: как продвигается исследование аудио-языковых моделей

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации