Опубликовано 25 марта 2026

Mercury 2: новые быстрые ИИ-модели для личного помощника

Mercury 2: быстрые ИИ-модели и первые шаги к личному помощнику

Inception Labs представила Mercury 2 – диффузионную языковую модель, которая работает быстро и дёшево, открывая новый подход к созданию ИИ-агентов.

Продукты 3 – 5 минут чтения
Источник события: Inception 3 – 5 минут чтения

Большинство современных языковых моделей – ChatGPT, Claude, Gemini и другие – работают по одному и тому же принципу: они генерируют текст по одному слову (точнее, токену) за раз. Это похоже на то, как человек печатает вслепую, не зная заранее, что напишет в конце предложения. Метод рабочий, но у него есть встроенное ограничение по скорости: чем длиннее ответ, тем дольше ждёшь.

Inception Labs пошла другим путём. Их модели серии Mercury построены на диффузионном подходе – том самом, который используется в генераторах изображений вроде Stable Diffusion. Только здесь вместо картинок генерируется текст. Если коротко: модель не пишет слова по очереди, а «проявляет» весь ответ сразу, постепенно уточняя его из шума. Это принципиально другая архитектура, и у неё есть одно очевидное преимущество – скорость.

Что такое Mercury 2 и его назначение

Что такое Mercury 2 и зачем он нужен

Mercury 2 – это новое поколение диффузионных языковых моделей от Inception Labs. Компания представила его вместе с собственным бенчмарком под названием PinchBench, который измеряет не только качество ответов, но и скорость, и стоимость генерации одновременно. Идея в том, что оценивать модель только по качеству – как выбирать машину только по максимальной скорости, игнорируя расход топлива.

PinchBench сводит три параметра в один показатель: насколько хорошо модель отвечает, как быстро она это делает и сколько это стоит. По этой метрике Mercury 2 показывает результаты, сопоставимые с ведущими моделями – при заметно меньших затратах на вычисления.

Скорость, меняющая применение ИИ-моделей

Скорость, которая меняет логику применения

Mercury 2 генерирует текст со скоростью порядка 1000 токенов в секунду и выше – это в разы быстрее, чем большинство стандартных авторегрессионных моделей при сопоставимом качестве. Но дело не только в цифрах.

Высокая скорость меняет то, как вообще можно использовать модель. Когда ответ приходит почти мгновенно, открываются сценарии, которые раньше были нецелесообразны: параллельный запуск множества агентов, быстрая итерация в реальном времени, обработка большого потока коротких задач без ощутимых задержек. Проще говоря, модель перестаёт быть узким местом в системе.

Это особенно важно для так называемых агентных систем – когда несколько ИИ-компонентов работают вместе, каждый выполняет свой шаг, и общее время ответа складывается из суммы всех задержек. Если каждый шаг занимает секунды, вся цепочка растягивается. Если каждый шаг – миллисекунды, картина меняется кардинально.

Эра личных ИИ-агентов: значение концепции

Эра личного агента: что это вообще значит

Inception Labs говорит об «эре персонального агента» – и это не просто маркетинговая фраза. За ней стоит конкретная идея: ИИ-помощник, который работает не как поисковик (спросил – получил ответ), а как полноценный исполнитель задач.

Представьте, что вы просите помощника не «найди мне информацию о рейсах», а «забронируй билет на пятницу, проверь, есть ли у меня конфликты в календаре, и напомни мне об этом в четверг утром». Это цепочка действий, которую нужно выполнить последовательно, с обращением к разным инструментам и с учётом контекста. Именно такие задачи и называют агентными.

Чтобы это работало в реальном времени и не стоило как аренда сервера, модель должна быть быстрой и дешёвой. Mercury 2 – попытка закрыть именно этот пробел.

Диффузионный подход к тексту: проблемы и решения

Диффузия в тексте: коротко о том, почему это непросто

Применить диффузионный подход к тексту – задача нетривиальная. С изображениями всё относительно понятно: пиксели можно «зашумить» и постепенно восстановить. С текстом сложнее – слова дискретны, их нельзя просто «немного изменить» так же плавно, как цвет пикселя.

Именно поэтому диффузионные языковые модели долгое время отставали от авторегрессионных по качеству. Mercury 2, судя по представленным результатам, существенно сокращает этот разрыв – особенно на задачах, где важны связность текста, следование инструкции и работа с кодом.

Это не значит, что диффузионный подход уже лучше во всём. Но он становится реальной альтернативой, а не просто академическим экспериментом.

Итоги: будущее быстрых ИИ-моделей

Что в итоге

Mercury 2 – это не очередная «самая умная модель в мире». Это попытка переосмыслить соотношение скорости, стоимости и качества в языковых моделях. Inception Labs делает ставку на то, что будущее ИИ-систем – не в одной мощной модели, которая думает долго и дорого, а в быстрых, доступных компонентах, которые можно запускать параллельно и массово.

Насколько эта ставка окажется верной – покажет время. Но сам факт того, что диффузионные языковые модели вышли на уровень, когда их можно всерьёз сравнивать с лидерами рынка, говорит о том, что пространство решений в ИИ становится шире. А это, как правило, хорошая новость для всех, кто этими решениями пользуется.

Ссылка на публикацию: https://www.inceptionlabs.ai/blog/mercury-2-on-pinchbench
Оригинальное название: Mercury 2 on PinchBench: Fast Diffusion Models and the Personal Agent Era
Дата публикации: 24 мар 2026
Inception www.inceptionlabs.ai Американская ИИ-компания, разрабатывающая диффузионные языковые модели и технологии генерации текста для приложений, включая помощь в программировании, голосовое взаимодействие и оптимизацию поиска.
Предыдущая статья MolmoWeb: открытый ИИ-агент для автономной работы в браузере Следующая статья Когда агент не знает ответа: как поисковые модели учатся находить то, что раньше было недосягаемо

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться