Трансформеры – это архитектура, на которой построено большинство современных языковых моделей: ChatGPT, Claude, Gemini и многие другие. Они хорошо справляются с пониманием контекста, но у них есть одна фундаментальная проблема: чем длиннее текст, тем медленнее и дороже они работают. Это физическое ограничение, заложенное в самом принципе их устройства.
Именно поэтому исследователи уже несколько лет ищут альтернативы. Одно из самых перспективных направлений – так называемые SSM, или модели на основе пространства состояний. Они устроены иначе: обрабатывают текст последовательно, «помня» только сжатое представление предыдущего контекста, а не весь текст целиком. Это делает их значительно быстрее при генерации – особенно на длинных последовательностях.
Серия Mamba – один из самых известных проектов в этом направлении. И недавно вышла её третья версия.
Что такое Mamba-3 и откуда она взялась
Mamba-3 разработана командой Together AI совместно с авторами оригинальной архитектуры Mamba. Модель с самого начала выпущена в открытый доступ: веса, код и детали обучения доступны всем желающим.
Главная заявленная цель Mamba-3 – быть моделью, оптимизированной именно под инференс (вывод). Инференс – это момент, когда модель уже обучена и начинает работать: отвечать на вопросы, генерировать текст, решать задачи. Именно здесь трансформеры теряют в скорости, и именно здесь Mamba-3 стремится выигрывать.
Если сравнивать с предыдущим поколением – Mamba-2 – новая версия показывает более высокое качество на стандартных тестах для языковых моделей. При этом скорость генерации у неё выше, чем у трансформеров сопоставимого размера.
Почему скорость генерации – это не просто «удобно»
Когда речь идёт о скорости моделей, легко подумать: «Ну и что, подождём лишнюю секунду». Но на практике это куда важнее, чем кажется.
Во-первых, скорость генерации напрямую влияет на стоимость работы модели. Чем быстрее модель выдаёт токены (единицы текста), тем меньше времени она занимает вычислительные ресурсы – а значит, тем дешевле обходится каждый запрос. Для компаний, которые обрабатывают миллионы запросов в день, это принципиально.
Во-вторых, скорость важна для пользовательского опыта. Разница между моделью, которая генерирует ответ за секунду, и той, что думает пять секунд, ощущается очень отчётливо – особенно в интерактивных сценариях.
В-третьих, некоторые задачи просто требуют высокой скорости: обработка потоков данных в реальном времени, встроенные системы, устройства с ограниченными ресурсами. Трансформеры в таких условиях работают с трудом.
Гибридный подход: не SSM и не трансформер, а что-то среднее
Интересный момент в архитектуре Mamba-3 – она не является «чистой» SSM-моделью. Разработчики использовали гибридный подход: часть слоёв модели работает по принципу SSM, а часть – по принципу механизма внимания, который лежит в основе трансформеров.
Проще говоря: модель берёт лучшее из обоих миров. SSM-слои обеспечивают скорость и эффективность на длинных текстах, а слои внимания помогают там, где важно точно «зацепиться» за конкретные детали в тексте.
Это не новая идея – гибридные архитектуры исследуются давно. Но Mamba-3 представляет собой конкретную реализацию, которая, по заявлению авторов, находит удачный баланс между качеством и скоростью.
Открытость как принципиальная позиция
Отдельно стоит отметить, что Mamba-3 выпущена как полностью открытая модель. Это значит, что любой желающий может скачать веса, изучить архитектуру, дообучить модель под свои задачи или встроить её в собственный продукт.
В контексте того, что многие крупные модели остаются закрытыми или доступны только через платный API, это принципиальное решение. Открытые модели дают исследовательскому сообществу возможность проверять заявления авторов, улучшать архитектуру и строить на её основе что-то новое.
Together AI – компания, которая специализируется на инфраструктуре для работы с открытыми моделями, поэтому их ставка на открытость выглядит вполне органично.
Насколько это меняет расклад?
Честный ответ: пока неизвестно.
Mamba-3 – это убедительный шаг в сторону альтернативных архитектур. Но трансформеры доминируют в индустрии не только потому, что они хорошо работают, но и потому, что под них выстроена огромная экосистема: инструменты, оборудование, опыт инженеров. Заменить это непросто.
SSM-модели в целом и Mamba в частности пока проигрывают трансформерам в одном важном аспекте: масштабировании. Большие трансформеры с сотнями миллиардов параметров демонстрируют впечатляющие способности к рассуждению. Будут ли SSM-архитектуры вести себя так же при увеличении масштаба – открытый вопрос.
Кроме того, реальная производительность моделей сильно зависит от конкретных задач. На одних бенчмарках Mamba-3 выглядит отлично, на других – картина может быть иной. Стандартные тесты не всегда отражают то, как модель ведёт себя в живых приложениях.
Тем не менее направление развития заметно: скорость и эффективность инференса становятся всё более важными критериями, наравне с качеством. И Mamba-3 – один из сигналов того, что альтернативы трансформерам продолжают развиваться и становиться зрелее.
Для разработчиков, которые работают с открытыми моделями или ищут способы снизить вычислительные затраты, Mamba-3 – это как минимум повод поэкспериментировать.