Большинство современных языковых моделей работают по одному принципу: они генерируют текст слово за словом, слева направо. Такой подход называется авторегрессионным: модель каждый раз предсказывает следующий токен, опираясь на всё, что было сказано ранее. Это работает хорошо, но у такого подхода есть ограничения: скорость генерации упирается в то, что каждый шаг зависит от предыдущего, и их невозможно выполнить параллельно.
Inception Labs пошла другим путём. Их модели серии Mercury используют диффузионный подход к генерации текста – тот самый, который сделал популярными генераторы изображений вроде Stable Diffusion. В данном случае он применяется не к картинкам, а к тексту. Проще говоря, модель не пишет текст последовательно, а постепенно «проясняет» его из зашумлённого состояния – подобно фотографу, проявляющему снимок в тёмной комнате.
Что такое Mercury и зачем он нужен
Первое поколение Mercury уже показало, что диффузионный подход к текстовым моделям жизнеспособен. Главное преимущество таких моделей – скорость: они способны генерировать текст значительно быстрее, чем классические авторегрессионные аналоги, потому что могут обрабатывать несколько частей текста параллельно.
Mercury 2 – это следующий шаг. Inception Labs описывает его как существенный скачок по качеству при сохранении той же скоростной модели работы. Если коротко: модель стала умнее, не потеряв в быстродействии.
Mercury 2 выходит в двух вариантах: Mercury Coder 2 и Mercury Nova.
Mercury Coder 2 – это специализированная модель для написания и редактирования кода. По данным Inception Labs, она показывает результаты на уровне лучших моделей в своём классе на стандартных тестах по программированию – и при этом работает заметно быстрее конкурентов. Речь идёт о скорости генерации порядка 1000 токенов в секунду и выше, что примерно в 5–10 раз превышает показатели сопоставимых по качеству авторегрессионных моделей.
Для разработчиков это не абстрактная цифра. Когда модель генерирует код быстро, инструменты на её основе – автодополнение, рефакторинг, объяснение кода – начинают ощущаться по-настоящему отзывчивыми, а не как ожидание у загрузочного экрана.
Mercury Nova – универсальная модель общего назначения. Она ориентирована на более широкий круг задач: работа с текстом, ответы на вопросы, помощь в написании и редактировании материалов. По заявленным показателям, Mercury Nova конкурирует с моделями уровня GPT-4o mini и Gemini Flash, сохраняя при этом скоростное преимущество диффузионного подхода.
Почему скорость – это не просто удобство
Можно подумать, что скорость генерации – это приятный бонус, но не принципиальная характеристика. На самом деле это не так.
Во-первых, быстрые модели открывают новый класс приложений. Например, системы, которые работают в реальном времени: живые субтитры, интерактивные обучающие тренажёры, динамические подсказки при наборе текста. Там, где задержка в несколько секунд разрушает пользовательский опыт, высокая скорость становится условием работоспособности, а не просто комфорта.
Во-вторых, скорость напрямую влияет на стоимость. Чем быстрее модель обрабатывает запросы, тем меньше вычислительных ресурсов требуется для обслуживания того же числа пользователей. Это выгодно как разработчикам продуктов, так и конечным пользователям.
В-третьих, для задач вроде написания кода или автодополнения скорость – это буквально часть функциональности. Если подсказка появляется через три секунды после того, как вы закончили печатать, она уже не нужна.
Диффузионный подход к тексту: это надолго?
Диффузионные модели для изображений уже доказали свою состоятельность – они изменили целую индустрию. Применить тот же принцип к тексту оказалось значительно сложнее, потому что текст дискретен: слова не размываются так же плавно, как пиксели. Inception Labs несколько лет работала над тем, чтобы сделать этот подход практически применимым.
Mercury 2 – это, по сути, демонстрация того, что диффузионные языковые модели доросли до уровня, на котором их уже можно всерьёз сравнивать с авторегрессионными аналогами по качеству. Раньше главным аргументом в пользу таких моделей была скорость, а качество оставалось заметно ниже. Теперь разрыв существенно сократился.
Это важно не только для Inception Labs. Если диффузионный подход продолжит развиваться такими темпами, у разработчиков появится реальная альтернатива доминирующей архитектуре – а конкуренция в этой области, как правило, идёт на пользу всем.
Доступность и что дальше
Обе модели – Mercury Coder 2 и Mercury Nova – доступны через API Inception Labs. Компания также открыла доступ к демоверсиям, где можно самостоятельно оценить скорость и качество генерации.
Пока Mercury 2 позиционируется прежде всего как инструмент для разработчиков и команд, которые встраивают языковые модели в свои продукты. Но если скоростное преимущество диффузионного подхода удастся сохранить при дальнейшем росте качества, область применения таких моделей будет только расширяться.
Открытым остаётся вопрос о том, насколько хорошо диффузионные модели справляются с задачами, требующими последовательных рассуждений – там, где важно выстроить логическую цепочку шаг за шагом. Авторегрессионный подход здесь имеет структурное преимущество: каждый следующий токен опирается на все предыдущие. Как диффузионные модели справятся с этим классом задач по мере масштабирования – один из интересных вопросов, ответ на который покажет практика.