Опубликовано 25 марта 2026

MolmoWeb: открытый ИИ-агент для автономной работы в браузере

Институт Аллена представил открытого веб-агента MolmoWeb. Он управляет браузером визуально, подобно человеку, и обходит многих проприетарных конкурентов.

Продукты 5 – 7 минут чтения

Источник события: Ai2 5 – 7 минут чтения

Представьте: вы просите ИИ найти самый дешёвый прямой рейс из одного города в другой. Он не просто выдаёт список ссылок – он сам открывает браузер, заходит на нужный сайт, вводит параметры поиска, листает результаты и возвращает вам готовый ответ. Именно так работают веб-агенты – системы, способные выполнять задачи в браузере так же, как это делает человек.

Такие инструменты существуют, но до недавнего времени самые сильные из них были закрытыми: обученными на засекреченных данных, недоступными для изучения и независимой проверки. Исследовательский институт Аллена (Ai2) решил изменить ситуацию и выпустил MolmoWeb – полностью открытый веб-агент, включая модель, обучающие данные, инструменты оценки и код.

Принцип работы и мультимодальные возможности MolmoWeb

Смотрит – и действует

MolmoWeb построен на базе мультимодальной модели Molmo 2 и доступен в двух вариантах: 4B и 8B параметров. Проще говоря, «мультимодальность» означает, что модель умеет работать не только с текстом, но и с изображениями.

Принцип работы агента на удивление лаконичен: посмотреть на экран, решить, что делать, и выполнить действие. На каждом шаге модель получает задание, скриншот текущего состояния браузера и историю предыдущих действий. Затем она формулирует краткое объяснение своих намерений и делает следующий шаг: кликает, вводит текст, прокручивает страницу, открывает вкладки или сообщает результат пользователю.

Ключевое отличие MolmoWeb от ряда других агентов заключается в том, что он работает именно с визуальным представлением страницы, то есть со скриншотами, а не с HTML-кодом или другими внутренними структурами сайта. Это максимально приближено к поведению человека: видишь кнопку – нажимаешь. Такой подход даёт практические преимущества: скриншот занимает гораздо меньше «места» при обработке, чем полная структура страницы, а визуальный интерфейс сайта меняется реже, чем его код. К тому же действия агента легче отследить и понять, ведь он видит то же, что и пользователь.

В итоге MolmoWeb справляется с широким спектром повседневных задач: навигацией по многостраничным сайтам, заполнением форм, поиском и фильтрацией товаров, извлечением нужной информации. И всё это – без необходимости использовать специальный API конкретного сайта.

Обучающий датасет MolmoWebMix и источники данных

Откуда берутся данные для обучения

Одна из главных трудностей в разработке веб-агентов – отсутствие публичных обучающих данных. Большинство существующих систем обучено на закрытых датасетах. Создатели MolmoWeb решили эту проблему иначе: вместе с моделью опубликован MolmoWebMix – большой открытый набор данных, созданный специально для обучения визуальных веб-агентов.

Датасет состоит из нескольких частей. Первая – демонстрации реальных пользователей: краудворкеры выполняли различные браузерные задачи с помощью расширения для Chrome, которое фиксировало их действия и скриншоты. Результат – более 30 000 записанных сессий, охватывающих свыше 1100 сайтов и более 590 000 отдельных подзадач. Это крупнейший из публично доступных датасетов такого рода.

Вторая часть – синтетические траектории, сгенерированные автоматически. Специальные агенты самостоятельно исследовали сайты по их структуре, выполняли задания и проверяли результаты без участия людей. Это позволило масштабировать датасет за рамки того, что можно собрать вручную.

Третья часть – данные для обучения «зрению»: задачи на определение положения элементов интерфейса на экране и ответы на вопросы по содержимому скриншотов. Только этот блок содержит более 2,2 миллиона пар «вопрос – ответ», собранных с почти 400 сайтов.

Важно и то, чего в обучении нет: команда Ai2 намеренно отказалась от дистилляции из проприетарных систем. Это значит, что MolmoWeb не учился подражать закрытым агентам, а был обучен с нуля на собственных данных.

Сравнение производительности MolmoWeb в бенчмарках

Результаты тестирования

MolmoWeb оценивался на четырёх бенчмарках, требующих работы с реальными сайтами. Тесты охватывают общую веб-навигацию, многошаговые задания на широком спектре ресурсов, сложные запросы в интернет-магазинах и проверку точности следования инструкциям.

Несмотря на относительно скромный размер, обе версии модели показали результаты на уровне лучших открытых веб-агентов. Версия 8B набрала 78,2% на WebVoyager, 42,3% на DeepShop и 49,5% на WebTailBench, превзойдя конкурирующие открытые модели. Меньшая версия 4B на некоторых тестах также опережала более крупные альтернативы, в том числе в ситуациях, когда конкурент использовал значительно больше шагов.

Ещё один любопытный результат: если запускать несколько независимых сессий агента и выбирать лучший результат, качество резко возрастает. При таком подходе версия 8B достигает 94,7% на WebVoyager против 78,2% при одиночном запуске. Проще говоря: чем больше вычислительных ресурсов вложить в процесс работы агента, тем надёжнее он справляется.

Отдельно проверялась способность модели точно «видеть» элементы интерфейса – находить кнопки, поля и ссылки на экране. Здесь специализированная версия MolmoWeb (8B) обошла не только другие открытые модели, но и ряд крупных проприетарных систем.

Текущие недостатки и вопросы безопасности модели

Ограничения и предостережения разработчиков

Команда честно перечисляет текущие недостатки. Поскольку модель видит только скриншоты, она иногда ошибается при чтении текста с экрана. Она может сбиться, если выполнит случайное действие в неподходящий момент – например, прокрутит страницу до того, как та полностью загрузилась. Сложные задания с большим количеством условий даются хуже, а некоторые манипуляции, вроде перетаскивания элементов или прокрутки внутри отдельного блока, пока остаются проблемными.

Из соображений безопасности и конфиденциальности MolmoWeb также не обучали задачам, связанным с авторизацией на сайтах или финансовыми транзакциями.

В этой области остаётся немало открытых вопросов. Как агент должен соблюдать правила пользования сайтами? Как предотвратить доступ к нежелательному контенту? Как защитить личные данные пользователя и не допустить необратимых действий? Разработчики не делают вид, что у них есть готовые ответы, и именно поэтому открывают все наработки: чем больше людей смогут изучить и улучшить систему, тем быстрее эти проблемы будут решены.

Значение открытых веб-агентов для развития нейросетей

Почему это важно

Ситуация с веб-агентами сегодня напоминает развитие языковых моделей до появления открытых альтернатив: возможности концентрировались в руках нескольких компаний, воспроизвести или проверить их было практически невозможно, а исследовательское сообщество работало в условиях дефицита информации.

MolmoWeb – это попытка изменить динамику. Открытая модель, данные, пайплайн обучения и инструменты оценки означают, что любой разработчик или исследователь может не просто использовать агента, но и понять, как он устроен, дообучить его под конкретную задачу или предложить улучшения.

Интернет – крупнейшая программная платформа в мире. Агенты, способные надёжно работать в браузере, могут существенно расширить доступ людей к информации и цифровым сервисам. MolmoWeb стал одним из первых шагов в этом направлении, сделанных открыто. 🌐

#прикладной разбор #технический контекст #развитие ии #инженерия #интерфейсы #человеко-машинное взаимодействие #открытые технологии #оптимизация работы в браузере #бенчмаркинг агентов

Ссылка на публикацию: https://allenai.org/blog/molmoweb

Оригинальное название: MolmoWeb: An open agent for automating web tasks

Дата публикации: 24 мар 2026

Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.

Предыдущая статья JetBrains Central: когда ИИ-агентов становится слишком много для ручного управления Следующая статья Mercury 2: быстрые ИИ-модели и первые шаги к личному помощнику

MolmoWeb: открытый ИИ-агент для автономной работы в браузере

Принцип работы и мультимодальные возможности MolmoWeb

Обучающий датасет MolmoWebMix и источники данных

Сравнение производительности MolmoWeb в бенчмарках

Текущие недостатки и вопросы безопасности модели

Значение открытых веб-агентов для развития нейросетей

Связанные публикации

Holotron-12B: агент, который управляет компьютером вместо вас

Alibaba выпустила открытый инструмент для ИИ-агентов, работающий на слабом оборудовании

Агент пишет CUDA-ядра: GPT и Claude научили генерировать код для GPU

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации