Опубликовано 2 апреля 2026

Sony AI в марте: диффузные модели, научные публикации и этика ИИ

Sony AI в марте: книга о диффузных моделях, более десяти принятых статей и признание исследователя

Sony AI подвела итоги марта: новая книга о генеративных моделях, пакет исследований для ICASSP 2026 и признание Элис Сян в списке лучших.

Исследования / Технический контекст 4 – 6 минут чтения
Источник события: Sony AI 4 – 6 минут чтения

Март у команды Sony AI выдался насыщенным. Исследователи закрыли сразу несколько направлений: вышла книга, объясняющая математические основы генеративных моделей; более десяти работ получили подтверждение на одну из ключевых конференций по обработке звука и речи; а руководитель направления AI-этики вошла в список ста самых влиятельных женщин в ИИ.

Ниже – о каждом из этих событий подробнее.

Книга о принципах диффузных моделей

Книга, которую давно стоило написать

Диффузные модели – это один из главных инструментов современной генерации контента. Именно они лежат в основе систем, создающих изображения, звук и многое другое по текстовым описаниям. Но, несмотря на широкое распространение, разобраться в этой области бывает непросто: разные исследовательские сообщества шли к похожим идеям своими путями, и в итоге накопилось много пересекающейся терминологии и конкурирующих формулировок.

Книга The Principles of Diffusion Models – попытка навести в этом порядок. Её написал исследователь Sony AI Чиэ-Синь «Джесси» Лай в соавторстве с Янг Сонгом, Донджун Кимом и Стефано Эрмоном. Авторы показывают, что за разными подходами – DDPM, score-based моделями, flow-based методами – стоит единая математическая логика. Проще говоря, это не несколько разных технологий, а разные способы описать одно и то же.

В интервью Джесси объяснил, что хотел бы, чтобы после прочтения читатель умел ориентироваться в поле, а не просто воспроизводил конкретные техники. По его убеждению, базовые идеи в этой области живут дольше, чем конкретные методы, построенные на их основе.

Более десяти статей на конференции ICASSP 2026

Более десяти статей на ICASSP 2026

IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) – одна из главных площадок для исследований в области обработки звука, речи и сигналов. В этом году конференция пройдёт 4–8 мая 2026 года в Барселоне, и Sony AI выходит на неё с внушительным пакетом принятых работ.

Темы охватывают довольно широкий спектр.

Как модели «слышат» структуру музыки

Одна из работ исследует, насколько хорошо предобученные аудиомодели справляются с анализом музыкальной структуры – например, умеют ли они различать куплет и припев. Выяснилось, что самообучение на музыкальных данных с так называемым masked language modeling (маскированным языковым моделированием) особенно эффективно для этой задачи.

Звук и картинка – вместе и в нужном месте

Другая работа занимается проблемой, которую легко не заметить: в системах, генерирующих аудио и видео одновременно, звук и изображение часто не совпадают в пространстве. Исследователи предложили новый способ измерять это несоответствие и создали специальный бенчмарк – SAVGBench.

Чистка данных вслепую

Качество обучающих данных критично для любой модели. В музыкальной сепарации (задаче разделения смешанного аудио на отдельные источники) наборы данных нередко содержат скрытые артефакты. Авторы предложили два метода очистки, которые работают без знания о том, какой именно тип загрязнения присутствует в данных.

Разделение звуков по видео или тексту

MMAudioSep – это генеративная модель, которая умеет вычленять нужный звук из смеси, ориентируясь на видеоряд или текстовое описание. В основе – предобученная модель генерации аудио по видео, которую адаптировали под новую задачу.

Foley в реальном времени

FlashFoley – первая опенсорсная ускоренная модель для генерации звука по эскизу (sketch-to-audio). В кинопроизводстве Foley («фундаментальные шумы»») – это искусственно созданные звуки, которые накладываются на видео (шаги, скрип двери, дождь). FlashFoley позволяет делать это интерактивно и в реальном времени.

Поиск сэмплов в музыке

Ещё одна работа решает задачу автоматического определения того, использован ли в треке фрагмент другого произведения, и если да – какого именно. Подход основан на самообучении и, по данным авторов, заметно превосходит предыдущие методы.

Автоматическое сведение

MEGAMI (Multitrack Embedding Generative Auto Mixing) – генеративный фреймворк для автоматического сведения многодорожечной музыки. В отличие от детерминированных методов, он учитывает субъективность творческих решений: одну и ту же запись профессиональные звукорежиссёры могут свести по-разному, и это нормально.

Барабаны под контролем

Break-the-Beat! – инструмент для рендеринга барабанных партий (MIDI) с тембром из эталонного аудио. Проще говоря: можно задать паттерн барабанов и указать, каким «звуком» их сыграть – например, взятым из конкретной записи.

Эталон для оценки Foley-моделей

FoleyBench – первый крупномасштабный бенчмарк, специально созданный для оценки моделей, генерирующих звук по видео в стиле Foley. Включает 5 000 троек «видео – аудио – текст» с хорошим охватом типичных Foley-звуков.

Синхронизация текста и аудио

WEALY – пайплайн для сопоставления лирики с аудиозаписью. Используются эмбеддинги из модели Whisper, при этом подход воспроизводим: авторы намеренно сделали прозрачные и открытые базовые сравнения.

Распознавание речи при ограниченных данных

Последняя из принятых работ улучшает подход Summary Mixing для распознавания речи в условиях малого количества данных. Нововведение снижает пиковое потребление видеопамяти на 40%, что делает обучение доступнее с точки зрения ресурсов.

Элис Сян об этике ИИ и проекте FHIBE

Элис Сян: этика как инструмент, а не декларация

Исследователь Sony AI Элис Сян – глава направления AI-этики в Sony Group – вошла в список Top 100 Women in AI for 2026 (100 лучших женщин в ИИ в 2026 году) по версии AI Magazine. Одновременно она приняла участие в подкасте «Me, Myself and AI» издания MIT Sloan Management Review, где рассказала о проекте FHIBE.

FHIBE (Fair Human-Centric Image Benchmark) – это первый публично доступный набор данных с согласия участников, созданный специально для оценки предвзятости в системах компьютерного зрения. Набор данных глобально разнообразен и охватывает широкий спектр задач, связанных с распознаванием людей. Он опубликован в Nature Magazine, доступен бесплатно и уже применяется в индустрии.

Проблема, которую решает FHIBE, довольно конкретна: чтобы проверить, насколько справедливо работает та или иная система компьютерного зрения, нужны репрезентативные данные, собранные с согласия людей, которые в них попали. Таких данных долгое время просто не существовало в открытом доступе. FHIBE закрывает этот пробел.

В разговоре с ведущим подкаста Сэмом Рансботэмом Элис объяснила, почему отсутствие этически собранных наборов данных – это не абстрактная проблема, а практическое препятствие для честной оценки ИИ-систем.

Ссылка на публикацию: https://ai.sony/blog/Advancing-AI-Highlights-from-March-2026/
Оригинальное название: Advancing AI: Highlights from March
Дата публикации: 1 апр 2026
Sony AI ai.sony Японское исследовательское подразделение Sony, занимающееся разработкой ИИ-технологий для творчества, робототехники, обработки изображений и анализа данных.
Предыдущая статья Как Salesforce обучает ИИ-агентов без огромных затрат Следующая статья Люди, которые заставляют GPU работать по-настоящему быстро: внутри команды Together AI

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

LG AI Research представила SciNO – инновационную диффузионную модель с нейронными операторами, предназначенную для определения порядка причин и следствий между переменными в данных.

LG AI Researchwww.lgresearch.ai 4 фев 2026

Исследователи представили масштабный бенчмарк M4-RAG для оценки систем, которые отвечают на вопросы по изображениям, опираясь на внешние знания и работая с несколькими языками.

Capital Onewww.capitalone.com 17 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться