Опубликовано

MiniMax-M2-her: как работает голосовая модель, которая говорит на 39 языках

Разбираемся в устройстве новой голосовой модели MiniMax, которая умеет одновременно понимать речь, распознавать говорящего и генерировать ответ.

Технический контекст Разработка
Источник события: MiniMax Время чтения: 4 – 6 минут

Компания MiniMax выпустила голосовую модель M2-her – систему, которая может слушать, понимать и отвечать голосом почти в реальном времени. Причём делает это на 39 языках, включая русский. Но интереснее всего то, как она устроена внутри.

Что такое M2-her и чем она отличается

M2-her – это не просто языковая модель с прикрученным к ней синтезатором речи. Это система, которая работает с голосом напрямую: получает аудио, обрабатывает его и генерирует ответ тоже в виде аудио. Нет промежуточного шага в виде текста.

Раньше голосовые ассистенты работали по схеме: сначала распознать речь в текст, потом обработать текст языковой моделью, потом синтезировать ответ обратно в голос. Здесь всё происходит внутри одной модели, и это даёт несколько преимуществ: меньше задержка, больше контроля над интонацией, возможность учитывать невербальные сигналы – паузы, тон, эмоции.

M2-her построена на базе большой языковой модели MiniMax-01, которая уже умеет работать с текстом на разных языках. Теперь к ней добавили голосовой слой.

Как модель понимает и создаёт речь 🎤

Вся магия происходит благодаря двум компонентам: кодировщику и декодировщику аудио.

Кодировщик принимает аудио и превращает его в набор токенов – дискретных единиц, с которыми может работать языковая модель. Для этого используется архитектура под названием Grouped Residual FSQ (Finite Scalar Quantization). Проще говоря, звук сжимается в компактное представление, которое сохраняет важную информацию: что сказано, кто говорит, с какой интонацией.

Кодировщик обучали на 200 тысячах часов аудио на 39 языках. Это помогло ему научиться различать не только слова, но и акценты, манеру речи, фоновый шум.

Декодировщик делает обратное: берёт токены от языковой модели и превращает их обратно в звук. Здесь используется SpeechFlow – архитектура на основе диффузии, которая генерирует аудио поэтапно, уточняя детали на каждом шаге. Это позволяет получить более естественную речь с правильными паузами и интонациями.

Обучение модели: три этапа

M2-her обучали в три этапа, и каждый решал свою задачу.

Первый этап – научить модель понимать связь между текстом и голосом. Для этого использовали огромные датасеты с парами «текст – аудио» и обучали модель предсказывать аудиотокены по тексту. Здесь модель училась не только произносить слова, но и выбирать правильный тон, скорость, тембр.

Второй этап – научить модель вести диалог. Использовали синтетические данные: генерировали разговоры на основе текстовых датасетов, а потом превращали их в аудио с помощью синтезаторов речи. Модель училась понимать контекст беседы, запоминать предыдущие реплики, отвечать по делу.

Третий этап – тонкая настройка с помощью обратной связи от людей. Здесь использовали подход, похожий на RLHF (обучение с подкреплением от человека). Людей просили оценивать ответы модели по разным критериям: насколько они полезны, естественны, соответствуют контексту. На основе этих оценок модель корректировала своё поведение.

Что модель умеет делать

M2-her показывает неплохие результаты в нескольких направлениях:

  • Распознавание речи. Модель может транскрибировать аудио на 39 языках. На бенчмарке LibriSpeech (английский язык) она показала результат 1,74% WER – это уровень профессиональных систем распознавания.
  • Определение говорящего. Модель умеет различать голоса разных людей и понимать, кто именно говорит в данный момент. Точность на бенчмарке VoxCeleb1 – 0,22% EER, что близко к лучшим специализированным моделям.
  • Генерация речи. Модель может говорить на разных языках, копировать манеру речи конкретного человека, менять интонацию в зависимости от контекста. На бенчмарке SEED-TTS оценка качества речи – 4,48 балла из 5, оценка сходства с исходным голосом – 4,32 из 5.
  • Ведение диалога. Модель понимает контекст беседы, может отвечать на сложные вопросы, уточнять детали. В тестах на диалоговые способности она набрала 7,95 баллов из 10 – это выше, чем у многих конкурентов.

Где это может пригодиться

Голосовые модели такого уровня открывают несколько интересных возможностей.

Голосовые ассистенты нового поколения. Вместо механических ответов – естественная беседа с паузами, интонациями, пониманием контекста. Можно будет не просто задавать команды, а разговаривать как с человеком.

Мультиязычная поддержка. Модель может общаться на 39 языках, и это не просто перевод текста. Она понимает культурные особенности, акценты, манеру речи каждого языка.

Озвучка и дубляж. Можно клонировать голос актёра и использовать его для озвучки на других языках. Причём модель сохранит не только тембр, но и манеру речи, эмоции.

Образование и доступность. Голосовые интерфейсы могут помочь людям с ограниченными возможностями, а также тем, кто учит новый язык – модель может поддерживать беседу, исправлять ошибки, подстраиваться под уровень собеседника.

Что дальше

MiniMax планирует продолжать развитие модели. В ближайших планах – улучшение качества генерации речи, расширение набора языков, уменьшение задержки отклика.

Компания также работает над тем, чтобы сделать модель более управляемой. Сейчас уже можно задавать параметры вроде скорости речи, тембра, эмоциональной окраски. В будущем, возможно, появится возможность более тонко настраивать поведение модели под конкретные задачи.

Ещё один важный момент – безопасность и этика использования. Модель умеет копировать голоса, и это создаёт риски злоупотреблений. MiniMax говорит, что работает над механизмами защиты: детекцией синтетической речи, аутентификацией говорящего, контролем за использованием клонированных голосов.

Пока M2-her – это скорее исследовательский проект, демонстрирующий возможности технологии. Но если посмотреть на темп развития голосовых моделей за последний год, можно предположить, что массовые продукты на их основе появятся довольно скоро.

Оригинальное название: A Deep Dive into the MiniMax-M2-her
Дата публикации: 26 янв 2026
MiniMaxwww.minimax.io Китайская ИИ-компания, создающая большие языковые и мультимодальные модели для диалогов и генерации контента.
Предыдущая статья Как индексировать огромные репозитории за секунды, а не часы Следующая статья Как запустить ИИ-агента для программирования на видеокартах AMD Instinct

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

BSC и ACAPPS разрабатывают технологии на основе искусственного интеллекта, призванные помочь глухим и слабослышащим людям эффективнее взаимодействовать с цифровыми сервисами.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться