Опубликовано 25 марта 2026

MolmoWeb: открытый ИИ-агент для автономной работы в браузере

Институт Аллена представил открытого веб-агента MolmoWeb. Он управляет браузером визуально, подобно человеку, и обходит многих проприетарных конкурентов.

Продукты 5 – 7 минут чтения
Источник события: Ai2 5 – 7 минут чтения

Представьте: вы просите ИИ найти самый дешёвый прямой рейс из одного города в другой. Он не просто выдаёт список ссылок – он сам открывает браузер, заходит на нужный сайт, вводит параметры поиска, листает результаты и возвращает вам готовый ответ. Именно так работают веб-агенты – системы, способные выполнять задачи в браузере так же, как это делает человек.

Такие инструменты существуют, но до недавнего времени самые сильные из них были закрытыми: обученными на засекреченных данных, недоступными для изучения и независимой проверки. Исследовательский институт Аллена (Ai2) решил изменить ситуацию и выпустил MolmoWeb – полностью открытый веб-агент, включая модель, обучающие данные, инструменты оценки и код.

Принцип работы и мультимодальные возможности MolmoWeb

Смотрит – и действует

MolmoWeb построен на базе мультимодальной модели Molmo 2 и доступен в двух вариантах: 4B и 8B параметров. Проще говоря, «мультимодальность» означает, что модель умеет работать не только с текстом, но и с изображениями.

Принцип работы агента на удивление лаконичен: посмотреть на экран, решить, что делать, и выполнить действие. На каждом шаге модель получает задание, скриншот текущего состояния браузера и историю предыдущих действий. Затем она формулирует краткое объяснение своих намерений и делает следующий шаг: кликает, вводит текст, прокручивает страницу, открывает вкладки или сообщает результат пользователю.

Ключевое отличие MolmoWeb от ряда других агентов заключается в том, что он работает именно с визуальным представлением страницы, то есть со скриншотами, а не с HTML-кодом или другими внутренними структурами сайта. Это максимально приближено к поведению человека: видишь кнопку – нажимаешь. Такой подход даёт практические преимущества: скриншот занимает гораздо меньше «места» при обработке, чем полная структура страницы, а визуальный интерфейс сайта меняется реже, чем его код. К тому же действия агента легче отследить и понять, ведь он видит то же, что и пользователь.

В итоге MolmoWeb справляется с широким спектром повседневных задач: навигацией по многостраничным сайтам, заполнением форм, поиском и фильтрацией товаров, извлечением нужной информации. И всё это – без необходимости использовать специальный API конкретного сайта.

Обучающий датасет MolmoWebMix и источники данных

Откуда берутся данные для обучения

Одна из главных трудностей в разработке веб-агентов – отсутствие публичных обучающих данных. Большинство существующих систем обучено на закрытых датасетах. Создатели MolmoWeb решили эту проблему иначе: вместе с моделью опубликован MolmoWebMix – большой открытый набор данных, созданный специально для обучения визуальных веб-агентов.

Датасет состоит из нескольких частей. Первая – демонстрации реальных пользователей: краудворкеры выполняли различные браузерные задачи с помощью расширения для Chrome, которое фиксировало их действия и скриншоты. Результат – более 30 000 записанных сессий, охватывающих свыше 1100 сайтов и более 590 000 отдельных подзадач. Это крупнейший из публично доступных датасетов такого рода.

Вторая часть – синтетические траектории, сгенерированные автоматически. Специальные агенты самостоятельно исследовали сайты по их структуре, выполняли задания и проверяли результаты без участия людей. Это позволило масштабировать датасет за рамки того, что можно собрать вручную.

Третья часть – данные для обучения «зрению»: задачи на определение положения элементов интерфейса на экране и ответы на вопросы по содержимому скриншотов. Только этот блок содержит более 2,2 миллиона пар «вопрос – ответ», собранных с почти 400 сайтов.

Важно и то, чего в обучении нет: команда Ai2 намеренно отказалась от дистилляции из проприетарных систем. Это значит, что MolmoWeb не учился подражать закрытым агентам, а был обучен с нуля на собственных данных.

Сравнение производительности MolmoWeb в бенчмарках

Результаты тестирования

MolmoWeb оценивался на четырёх бенчмарках, требующих работы с реальными сайтами. Тесты охватывают общую веб-навигацию, многошаговые задания на широком спектре ресурсов, сложные запросы в интернет-магазинах и проверку точности следования инструкциям.

Несмотря на относительно скромный размер, обе версии модели показали результаты на уровне лучших открытых веб-агентов. Версия 8B набрала 78,2% на WebVoyager, 42,3% на DeepShop и 49,5% на WebTailBench, превзойдя конкурирующие открытые модели. Меньшая версия 4B на некоторых тестах также опережала более крупные альтернативы, в том числе в ситуациях, когда конкурент использовал значительно больше шагов.

Ещё один любопытный результат: если запускать несколько независимых сессий агента и выбирать лучший результат, качество резко возрастает. При таком подходе версия 8B достигает 94,7% на WebVoyager против 78,2% при одиночном запуске. Проще говоря: чем больше вычислительных ресурсов вложить в процесс работы агента, тем надёжнее он справляется.

Отдельно проверялась способность модели точно «видеть» элементы интерфейса – находить кнопки, поля и ссылки на экране. Здесь специализированная версия MolmoWeb (8B) обошла не только другие открытые модели, но и ряд крупных проприетарных систем.

Текущие недостатки и вопросы безопасности модели

Ограничения и предостережения разработчиков

Команда честно перечисляет текущие недостатки. Поскольку модель видит только скриншоты, она иногда ошибается при чтении текста с экрана. Она может сбиться, если выполнит случайное действие в неподходящий момент – например, прокрутит страницу до того, как та полностью загрузилась. Сложные задания с большим количеством условий даются хуже, а некоторые манипуляции, вроде перетаскивания элементов или прокрутки внутри отдельного блока, пока остаются проблемными.

Из соображений безопасности и конфиденциальности MolmoWeb также не обучали задачам, связанным с авторизацией на сайтах или финансовыми транзакциями.

В этой области остаётся немало открытых вопросов. Как агент должен соблюдать правила пользования сайтами? Как предотвратить доступ к нежелательному контенту? Как защитить личные данные пользователя и не допустить необратимых действий? Разработчики не делают вид, что у них есть готовые ответы, и именно поэтому открывают все наработки: чем больше людей смогут изучить и улучшить систему, тем быстрее эти проблемы будут решены.

Значение открытых веб-агентов для развития нейросетей

Почему это важно

Ситуация с веб-агентами сегодня напоминает развитие языковых моделей до появления открытых альтернатив: возможности концентрировались в руках нескольких компаний, воспроизвести или проверить их было практически невозможно, а исследовательское сообщество работало в условиях дефицита информации.

MolmoWeb – это попытка изменить динамику. Открытая модель, данные, пайплайн обучения и инструменты оценки означают, что любой разработчик или исследователь может не просто использовать агента, но и понять, как он устроен, дообучить его под конкретную задачу или предложить улучшения.

Интернет – крупнейшая программная платформа в мире. Агенты, способные надёжно работать в браузере, могут существенно расширить доступ людей к информации и цифровым сервисам. MolmoWeb стал одним из первых шагов в этом направлении, сделанных открыто. 🌐

Ссылка на публикацию: https://allenai.org/blog/molmoweb
Оригинальное название: MolmoWeb: An open agent for automating web tasks
Дата публикации: 24 мар 2026
Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.
Предыдущая статья JetBrains Central: когда ИИ-агентов становится слишком много для ручного управления Следующая статья Mercury 2: быстрые ИИ-модели и первые шаги к личному помощнику

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Alibaba открыла исходный код связки HiClaw и CoPaw – лёгкого решения для ИИ-агентов, которое потребляет значительно меньше памяти и работает локально.

Alibaba Cloudwww.alibabacloud.com 17 мар 2026

ИИ: События

Агент пишет CUDA-ядра: GPT и Claude научили генерировать код для GPU

Технический контекст Разработка

Два AI-агента умеют создавать оптимизированные CUDA-ядра для ускорения операций прямо по описанию задачи. Разбираемся, что это меняет для тех, кто работает с моделями.

Hugging Facehuggingface.co 13 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться