Опубликовано 28 января 2026

MiniMax M2-her: голосовая модель, которая говорит на 39 языках

MiniMax-M2-her: как работает голосовая модель, которая говорит на 39 языках

Разбираемся в устройстве новой голосовой модели MiniMax, которая умеет одновременно понимать речь, распознавать говорящего и генерировать ответ.

Разработка / Технический контекст 4 – 6 минут чтения

Источник события: MiniMax 4 – 6 минут чтения

Компания MiniMax выпустила голосовую модель M2-her – систему, которая может слушать, понимать и отвечать голосом почти в реальном времени. Причём делает это на 39 языках, включая русский. Но интереснее всего то, как она устроена внутри.

Что такое M2-her и чем она отличается от других голосовых моделей

Что такое M2-her и чем она отличается

M2-her – это не просто языковая модель с прикрученным к ней синтезатором речи. Это система, которая работает с голосом напрямую: получает аудио, обрабатывает его и генерирует ответ тоже в виде аудио. Нет промежуточного шага в виде текста.

Раньше голосовые ассистенты работали по схеме: сначала распознать речь в текст, потом обработать текст языковой моделью, потом синтезировать ответ обратно в голос. Здесь всё происходит внутри одной модели, и это даёт несколько преимуществ: меньше задержка, больше контроля над интонацией, возможность учитывать невербальные сигналы – паузы, тон, эмоции.

M2-her построена на базе большой языковой модели MiniMax-01, которая уже умеет работать с текстом на разных языках. Теперь к ней добавили голосовой слой.

Как голосовая модель M2-her понимает и создаёт речь

Как модель понимает и создаёт речь 🎤

Вся магия происходит благодаря двум компонентам: кодировщику и декодировщику аудио.

Кодировщик принимает аудио и превращает его в набор токенов – дискретных единиц, с которыми может работать языковая модель. Для этого используется архитектура под названием Grouped Residual FSQ (Finite Scalar Quantization). Проще говоря, звук сжимается в компактное представление, которое сохраняет важную информацию: что сказано, кто говорит, с какой интонацией.

Кодировщик обучали на 200 тысячах часов аудио на 39 языках. Это помогло ему научиться различать не только слова, но и акценты, манеру речи, фоновый шум.

Декодировщик делает обратное: берёт токены от языковой модели и превращает их обратно в звук. Здесь используется SpeechFlow – архитектура на основе диффузии, которая генерирует аудио поэтапно, уточняя детали на каждом шаге. Это позволяет получить более естественную речь с правильными паузами и интонациями.

Обучение голосовой модели M2-her: три этапа

Обучение модели: три этапа

M2-her обучали в три этапа, и каждый решал свою задачу.

Первый этап – научить модель понимать связь между текстом и голосом. Для этого использовали огромные датасеты с парами «текст – аудио» и обучали модель предсказывать аудиотокены по тексту. Здесь модель училась не только произносить слова, но и выбирать правильный тон, скорость, тембр.

Второй этап – научить модель вести диалог. Использовали синтетические данные: генерировали разговоры на основе текстовых датасетов, а потом превращали их в аудио с помощью синтезаторов речи. Модель училась понимать контекст беседы, запоминать предыдущие реплики, отвечать по делу.

Третий этап – тонкая настройка с помощью обратной связи от людей. Здесь использовали подход, похожий на RLHF (обучение с подкреплением от человека). Людей просили оценивать ответы модели по разным критериям: насколько они полезны, естественны, соответствуют контексту. На основе этих оценок модель корректировала своё поведение.

Что умеет голосовая модель M2-her

Что модель умеет делать

M2-her показывает неплохие результаты в нескольких направлениях:

Распознавание речи. Модель может транскрибировать аудио на 39 языках. На бенчмарке LibriSpeech (английский язык) она показала результат 1,74% WER – это уровень профессиональных систем распознавания.
Определение говорящего. Модель умеет различать голоса разных людей и понимать, кто именно говорит в данный момент. Точность на бенчмарке VoxCeleb1 – 0,22% EER, что близко к лучшим специализированным моделям.
Генерация речи. Модель может говорить на разных языках, копировать манеру речи конкретного человека, менять интонацию в зависимости от контекста. На бенчмарке SEED-TTS оценка качества речи – 4,48 балла из 5, оценка сходства с исходным голосом – 4,32 из 5.
Ведение диалога. Модель понимает контекст беседы, может отвечать на сложные вопросы, уточнять детали. В тестах на диалоговые способности она набрала 7,95 баллов из 10 – это выше, чем у многих конкурентов.

Где может пригодиться голосовая модель

Где это может пригодиться

Голосовые модели такого уровня открывают несколько интересных возможностей.

Голосовые ассистенты нового поколения. Вместо механических ответов – естественная беседа с паузами, интонациями, пониманием контекста. Можно будет не просто задавать команды, а разговаривать как с человеком.

Мультиязычная поддержка. Модель может общаться на 39 языках, и это не просто перевод текста. Она понимает культурные особенности, акценты, манеру речи каждого языка.

Озвучка и дубляж. Можно клонировать голос актёра и использовать его для озвучки на других языках. Причём модель сохранит не только тембр, но и манеру речи, эмоции.

Образование и доступность. Голосовые интерфейсы могут помочь людям с ограниченными возможностями, а также тем, кто учит новый язык – модель может поддерживать беседу, исправлять ошибки, подстраиваться под уровень собеседника.

Что ждет голосовую модель MiniMax M2-her в будущем

Что дальше

MiniMax планирует продолжать развитие модели. В ближайших планах – улучшение качества генерации речи, расширение набора языков, уменьшение задержки отклика.

Компания также работает над тем, чтобы сделать модель более управляемой. Сейчас уже можно задавать параметры вроде скорости речи, тембра, эмоциональной окраски. В будущем, возможно, появится возможность более тонко настраивать поведение модели под конкретные задачи.

Ещё один важный момент – безопасность и этика использования. Модель умеет копировать голоса, и это создаёт риски злоупотреблений. MiniMax говорит, что работает над механизмами защиты: детекцией синтетической речи, аутентификацией говорящего, контролем за использованием клонированных голосов.

Пока M2-her – это скорее исследовательский проект, демонстрирующий возможности технологии. Но если посмотреть на темп развития голосовых моделей за последний год, можно предположить, что массовые продукты на их основе появятся довольно скоро.

#технический контекст #образовательный материал #нейросети #лингвистика ии #инженерия #интерфейсы #генеративные модели #мультимодальные модели

Ссылка на публикацию: https://www.minimax.io/news/a-deep-dive-into-the-minimax-m2-her-2

Оригинальное название: A Deep Dive into the MiniMax-M2-her

Дата публикации: 26 янв 2026

MiniMax www.minimax.io Китайская ИИ-компания, создающая большие языковые и мультимодальные модели для диалогов и генерации контента.

Предыдущая статья Как индексировать огромные репозитории за секунды, а не часы Следующая статья Как запустить ИИ-агента для программирования на видеокартах AMD Instinct

MiniMax M2-her: голосовая модель, которая говорит на 39 языках

Что такое M2-her и чем она отличается от других голосовых моделей

Как голосовая модель M2-her понимает и создаёт речь

Обучение голосовой модели M2-her: три этапа

Что умеет голосовая модель M2-her

Где может пригодиться голосовая модель

Что ждет голосовую модель MiniMax M2-her в будущем

Связанные публикации

Когда барабаны вторят твоему битбоксу: как научить ИИ играть в ритм

Как научить ИИ правильно читать арабские и еврейские PDF-файлы

Почему гелий превращает вас в бурундука, а гексафторид серы – в Дарта Вейдера?

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации