Представьте: вы просите ИИ найти самый дешёвый прямой рейс из одного города в другой. Он не просто выдаёт список ссылок – он сам открывает браузер, заходит на нужный сайт, вводит параметры поиска, листает результаты и возвращает вам готовый ответ. Именно так работают веб-агенты – системы, способные выполнять задачи в браузере так же, как это делает человек.
Такие инструменты существуют, но до недавнего времени самые сильные из них были закрытыми: обученными на засекреченных данных, недоступными для изучения и независимой проверки. Исследовательский институт Аллена (Ai2) решил изменить ситуацию и выпустил MolmoWeb – полностью открытый веб-агент, включая модель, обучающие данные, инструменты оценки и код.
Смотрит – и действует
MolmoWeb построен на базе мультимодальной модели Molmo 2 и доступен в двух вариантах: 4B и 8B параметров. Проще говоря, «мультимодальность» означает, что модель умеет работать не только с текстом, но и с изображениями.
Принцип работы агента на удивление лаконичен: посмотреть на экран, решить, что делать, и выполнить действие. На каждом шаге модель получает задание, скриншот текущего состояния браузера и историю предыдущих действий. Затем она формулирует краткое объяснение своих намерений и делает следующий шаг: кликает, вводит текст, прокручивает страницу, открывает вкладки или сообщает результат пользователю.
Ключевое отличие MolmoWeb от ряда других агентов заключается в том, что он работает именно с визуальным представлением страницы, то есть со скриншотами, а не с HTML-кодом или другими внутренними структурами сайта. Это максимально приближено к поведению человека: видишь кнопку – нажимаешь. Такой подход даёт практические преимущества: скриншот занимает гораздо меньше «места» при обработке, чем полная структура страницы, а визуальный интерфейс сайта меняется реже, чем его код. К тому же действия агента легче отследить и понять, ведь он видит то же, что и пользователь.
В итоге MolmoWeb справляется с широким спектром повседневных задач: навигацией по многостраничным сайтам, заполнением форм, поиском и фильтрацией товаров, извлечением нужной информации. И всё это – без необходимости использовать специальный API конкретного сайта.
Откуда берутся данные для обучения
Одна из главных трудностей в разработке веб-агентов – отсутствие публичных обучающих данных. Большинство существующих систем обучено на закрытых датасетах. Создатели MolmoWeb решили эту проблему иначе: вместе с моделью опубликован MolmoWebMix – большой открытый набор данных, созданный специально для обучения визуальных веб-агентов.
Датасет состоит из нескольких частей. Первая – демонстрации реальных пользователей: краудворкеры выполняли различные браузерные задачи с помощью расширения для Chrome, которое фиксировало их действия и скриншоты. Результат – более 30 000 записанных сессий, охватывающих свыше 1100 сайтов и более 590 000 отдельных подзадач. Это крупнейший из публично доступных датасетов такого рода.
Вторая часть – синтетические траектории, сгенерированные автоматически. Специальные агенты самостоятельно исследовали сайты по их структуре, выполняли задания и проверяли результаты без участия людей. Это позволило масштабировать датасет за рамки того, что можно собрать вручную.
Третья часть – данные для обучения «зрению»: задачи на определение положения элементов интерфейса на экране и ответы на вопросы по содержимому скриншотов. Только этот блок содержит более 2,2 миллиона пар «вопрос – ответ», собранных с почти 400 сайтов.
Важно и то, чего в обучении нет: команда Ai2 намеренно отказалась от дистилляции из проприетарных систем. Это значит, что MolmoWeb не учился подражать закрытым агентам, а был обучен с нуля на собственных данных.
Результаты тестирования
MolmoWeb оценивался на четырёх бенчмарках, требующих работы с реальными сайтами. Тесты охватывают общую веб-навигацию, многошаговые задания на широком спектре ресурсов, сложные запросы в интернет-магазинах и проверку точности следования инструкциям.
Несмотря на относительно скромный размер, обе версии модели показали результаты на уровне лучших открытых веб-агентов. Версия 8B набрала 78,2% на WebVoyager, 42,3% на DeepShop и 49,5% на WebTailBench, превзойдя конкурирующие открытые модели. Меньшая версия 4B на некоторых тестах также опережала более крупные альтернативы, в том числе в ситуациях, когда конкурент использовал значительно больше шагов.
Ещё один любопытный результат: если запускать несколько независимых сессий агента и выбирать лучший результат, качество резко возрастает. При таком подходе версия 8B достигает 94,7% на WebVoyager против 78,2% при одиночном запуске. Проще говоря: чем больше вычислительных ресурсов вложить в процесс работы агента, тем надёжнее он справляется.
Отдельно проверялась способность модели точно «видеть» элементы интерфейса – находить кнопки, поля и ссылки на экране. Здесь специализированная версия MolmoWeb (8B) обошла не только другие открытые модели, но и ряд крупных проприетарных систем.
Ограничения и предостережения разработчиков
Команда честно перечисляет текущие недостатки. Поскольку модель видит только скриншоты, она иногда ошибается при чтении текста с экрана. Она может сбиться, если выполнит случайное действие в неподходящий момент – например, прокрутит страницу до того, как та полностью загрузилась. Сложные задания с большим количеством условий даются хуже, а некоторые манипуляции, вроде перетаскивания элементов или прокрутки внутри отдельного блока, пока остаются проблемными.
Из соображений безопасности и конфиденциальности MolmoWeb также не обучали задачам, связанным с авторизацией на сайтах или финансовыми транзакциями.
В этой области остаётся немало открытых вопросов. Как агент должен соблюдать правила пользования сайтами? Как предотвратить доступ к нежелательному контенту? Как защитить личные данные пользователя и не допустить необратимых действий? Разработчики не делают вид, что у них есть готовые ответы, и именно поэтому открывают все наработки: чем больше людей смогут изучить и улучшить систему, тем быстрее эти проблемы будут решены.
Почему это важно
Ситуация с веб-агентами сегодня напоминает развитие языковых моделей до появления открытых альтернатив: возможности концентрировались в руках нескольких компаний, воспроизвести или проверить их было практически невозможно, а исследовательское сообщество работало в условиях дефицита информации.
MolmoWeb – это попытка изменить динамику. Открытая модель, данные, пайплайн обучения и инструменты оценки означают, что любой разработчик или исследователь может не просто использовать агента, но и понять, как он устроен, дообучить его под конкретную задачу или предложить улучшения.
Интернет – крупнейшая программная платформа в мире. Агенты, способные надёжно работать в браузере, могут существенно расширить доступ людей к информации и цифровым сервисам. MolmoWeb стал одним из первых шагов в этом направлении, сделанных открыто. 🌐