Большинство современных языковых моделей – ChatGPT, Claude, Gemini и другие – работают по одному и тому же принципу: они генерируют текст по одному слову (точнее, токену) за раз. Это похоже на то, как человек печатает вслепую, не зная заранее, что напишет в конце предложения. Метод рабочий, но у него есть встроенное ограничение по скорости: чем длиннее ответ, тем дольше ждёшь.
Inception Labs пошла другим путём. Их модели серии Mercury построены на диффузионном подходе – том самом, который используется в генераторах изображений вроде Stable Diffusion. Только здесь вместо картинок генерируется текст. Если коротко: модель не пишет слова по очереди, а «проявляет» весь ответ сразу, постепенно уточняя его из шума. Это принципиально другая архитектура, и у неё есть одно очевидное преимущество – скорость.
Что такое Mercury 2 и зачем он нужен
Mercury 2 – это новое поколение диффузионных языковых моделей от Inception Labs. Компания представила его вместе с собственным бенчмарком под названием PinchBench, который измеряет не только качество ответов, но и скорость, и стоимость генерации одновременно. Идея в том, что оценивать модель только по качеству – как выбирать машину только по максимальной скорости, игнорируя расход топлива.
PinchBench сводит три параметра в один показатель: насколько хорошо модель отвечает, как быстро она это делает и сколько это стоит. По этой метрике Mercury 2 показывает результаты, сопоставимые с ведущими моделями – при заметно меньших затратах на вычисления.
Скорость, которая меняет логику применения
Mercury 2 генерирует текст со скоростью порядка 1000 токенов в секунду и выше – это в разы быстрее, чем большинство стандартных авторегрессионных моделей при сопоставимом качестве. Но дело не только в цифрах.
Высокая скорость меняет то, как вообще можно использовать модель. Когда ответ приходит почти мгновенно, открываются сценарии, которые раньше были нецелесообразны: параллельный запуск множества агентов, быстрая итерация в реальном времени, обработка большого потока коротких задач без ощутимых задержек. Проще говоря, модель перестаёт быть узким местом в системе.
Это особенно важно для так называемых агентных систем – когда несколько ИИ-компонентов работают вместе, каждый выполняет свой шаг, и общее время ответа складывается из суммы всех задержек. Если каждый шаг занимает секунды, вся цепочка растягивается. Если каждый шаг – миллисекунды, картина меняется кардинально.
Эра личного агента: что это вообще значит
Inception Labs говорит об «эре персонального агента» – и это не просто маркетинговая фраза. За ней стоит конкретная идея: ИИ-помощник, который работает не как поисковик (спросил – получил ответ), а как полноценный исполнитель задач.
Представьте, что вы просите помощника не «найди мне информацию о рейсах», а «забронируй билет на пятницу, проверь, есть ли у меня конфликты в календаре, и напомни мне об этом в четверг утром». Это цепочка действий, которую нужно выполнить последовательно, с обращением к разным инструментам и с учётом контекста. Именно такие задачи и называют агентными.
Чтобы это работало в реальном времени и не стоило как аренда сервера, модель должна быть быстрой и дешёвой. Mercury 2 – попытка закрыть именно этот пробел.
Диффузия в тексте: коротко о том, почему это непросто
Применить диффузионный подход к тексту – задача нетривиальная. С изображениями всё относительно понятно: пиксели можно «зашумить» и постепенно восстановить. С текстом сложнее – слова дискретны, их нельзя просто «немного изменить» так же плавно, как цвет пикселя.
Именно поэтому диффузионные языковые модели долгое время отставали от авторегрессионных по качеству. Mercury 2, судя по представленным результатам, существенно сокращает этот разрыв – особенно на задачах, где важны связность текста, следование инструкции и работа с кодом.
Это не значит, что диффузионный подход уже лучше во всём. Но он становится реальной альтернативой, а не просто академическим экспериментом.
Что в итоге
Mercury 2 – это не очередная «самая умная модель в мире». Это попытка переосмыслить соотношение скорости, стоимости и качества в языковых моделях. Inception Labs делает ставку на то, что будущее ИИ-систем – не в одной мощной модели, которая думает долго и дорого, а в быстрых, доступных компонентах, которые можно запускать параллельно и массово.
Насколько эта ставка окажется верной – покажет время. Но сам факт того, что диффузионные языковые модели вышли на уровень, когда их можно всерьёз сравнивать с лидерами рынка, говорит о том, что пространство решений в ИИ становится шире. А это, как правило, хорошая новость для всех, кто этими решениями пользуется.