Опубликовано 19 марта 2026

Mamba-3: новая языковая модель быстрее трансформеров

Mamba-3: быстрее трансформеров на практике, а не только на бумаге

Вышла Mamba-3 – открытая языковая модель, которая обгоняет трансформеры по скорости генерации текста и превосходит предыдущие версии по качеству.

Исследования / Технический контекст 4 – 5 минут чтения
Источник события: Together.ai 4 – 5 минут чтения

Трансформеры – это архитектура, на которой построено большинство современных языковых моделей: ChatGPT, Claude, Gemini и многие другие. Они хорошо справляются с пониманием контекста, но у них есть одна фундаментальная проблема: чем длиннее текст, тем медленнее и дороже они работают. Это физическое ограничение, заложенное в самом принципе их устройства.

Именно поэтому исследователи уже несколько лет ищут альтернативы. Одно из самых перспективных направлений – так называемые SSM, или модели на основе пространства состояний. Они устроены иначе: обрабатывают текст последовательно, «помня» только сжатое представление предыдущего контекста, а не весь текст целиком. Это делает их значительно быстрее при генерации – особенно на длинных последовательностях.

Серия Mamba – один из самых известных проектов в этом направлении. И недавно вышла её третья версия.

Что такое Mamba-3 и особенности новой модели

Что такое Mamba-3 и откуда она взялась

Mamba-3 разработана командой Together AI совместно с авторами оригинальной архитектуры Mamba. Модель с самого начала выпущена в открытый доступ: веса, код и детали обучения доступны всем желающим.

Главная заявленная цель Mamba-3 – быть моделью, оптимизированной именно под инференс (вывод). Инференс – это момент, когда модель уже обучена и начинает работать: отвечать на вопросы, генерировать текст, решать задачи. Именно здесь трансформеры теряют в скорости, и именно здесь Mamba-3 стремится выигрывать.

Если сравнивать с предыдущим поколением – Mamba-2 – новая версия показывает более высокое качество на стандартных тестах для языковых моделей. При этом скорость генерации у неё выше, чем у трансформеров сопоставимого размера.

Важность скорости генерации для AI моделей

Почему скорость генерации – это не просто «удобно»

Когда речь идёт о скорости моделей, легко подумать: «Ну и что, подождём лишнюю секунду». Но на практике это куда важнее, чем кажется.

Во-первых, скорость генерации напрямую влияет на стоимость работы модели. Чем быстрее модель выдаёт токены (единицы текста), тем меньше времени она занимает вычислительные ресурсы – а значит, тем дешевле обходится каждый запрос. Для компаний, которые обрабатывают миллионы запросов в день, это принципиально.

Во-вторых, скорость важна для пользовательского опыта. Разница между моделью, которая генерирует ответ за секунду, и той, что думает пять секунд, ощущается очень отчётливо – особенно в интерактивных сценариях.

В-третьих, некоторые задачи просто требуют высокой скорости: обработка потоков данных в реальном времени, встроенные системы, устройства с ограниченными ресурсами. Трансформеры в таких условиях работают с трудом.

Гибридный подход: Mamba-3 сочетает SSM и трансформеры

Гибридный подход: не SSM и не трансформер, а что-то среднее

Интересный момент в архитектуре Mamba-3 – она не является «чистой» SSM-моделью. Разработчики использовали гибридный подход: часть слоёв модели работает по принципу SSM, а часть – по принципу механизма внимания, который лежит в основе трансформеров.

Проще говоря: модель берёт лучшее из обоих миров. SSM-слои обеспечивают скорость и эффективность на длинных текстах, а слои внимания помогают там, где важно точно «зацепиться» за конкретные детали в тексте.

Это не новая идея – гибридные архитектуры исследуются давно. Но Mamba-3 представляет собой конкретную реализацию, которая, по заявлению авторов, находит удачный баланс между качеством и скоростью.

Открытость Mamba-3: преимущества для разработчиков

Открытость как принципиальная позиция

Отдельно стоит отметить, что Mamba-3 выпущена как полностью открытая модель. Это значит, что любой желающий может скачать веса, изучить архитектуру, дообучить модель под свои задачи или встроить её в собственный продукт.

В контексте того, что многие крупные модели остаются закрытыми или доступны только через платный API, это принципиальное решение. Открытые модели дают исследовательскому сообществу возможность проверять заявления авторов, улучшать архитектуру и строить на её основе что-то новое.

Together AI – компания, которая специализируется на инфраструктуре для работы с открытыми моделями, поэтому их ставка на открытость выглядит вполне органично.

Перспективы Mamba-3 и других альтернатив трансформерам в индустрии ИИ

Насколько это меняет расклад?

Честный ответ: пока неизвестно.

Mamba-3 – это убедительный шаг в сторону альтернативных архитектур. Но трансформеры доминируют в индустрии не только потому, что они хорошо работают, но и потому, что под них выстроена огромная экосистема: инструменты, оборудование, опыт инженеров. Заменить это непросто.

SSM-модели в целом и Mamba в частности пока проигрывают трансформерам в одном важном аспекте: масштабировании. Большие трансформеры с сотнями миллиардов параметров демонстрируют впечатляющие способности к рассуждению. Будут ли SSM-архитектуры вести себя так же при увеличении масштаба – открытый вопрос.

Кроме того, реальная производительность моделей сильно зависит от конкретных задач. На одних бенчмарках Mamba-3 выглядит отлично, на других – картина может быть иной. Стандартные тесты не всегда отражают то, как модель ведёт себя в живых приложениях.

Тем не менее направление развития заметно: скорость и эффективность инференса становятся всё более важными критериями, наравне с качеством. И Mamba-3 – один из сигналов того, что альтернативы трансформерам продолжают развиваться и становиться зрелее.

Для разработчиков, которые работают с открытыми моделями или ищут способы снизить вычислительные затраты, Mamba-3 – это как минимум повод поэкспериментировать.

Ссылка на публикацию: https://www.together.ai/blog/mamba-3
Оригинальное название: Mamba-3
Дата публикации: 17 мар 2026
Together.ai www.together.ai Американская платформа для запуска и масштабирования открытых ИИ-моделей.
Предыдущая статья Голосовые ИИ-агенты на устройстве: как PyTorch создаёт единую платформу для голосовых задач Следующая статья Google инвестирует в безопасность открытого кода и применяет ИИ

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Новый слой OVQ-внимания от компании Zyphra призван снизить нагрузку на память и вычислительные ресурсы при работе с длинными контекстами, сохраняя при этом высокое качество обработки последовательностей.

Zyphrawww.zyphra.com 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться