В то время как большинство новостей об ИИ сосредоточены на чат-ботах и генерации текста, незаметно развивается другая гонка – за ИИ-агентами, которые умеют не просто отвечать на вопросы, а работать за компьютером. Открывать приложения, нажимать кнопки, заполнять формы, выполнять задачи в реальном интерфейсе – так, как это сделал бы живой человек.
Компания H представила Holo3 – новую версию своей модели, ориентированной именно на эту задачу. И, судя по результатам тестирования, это не просто очередной релиз ради релиза.
Что такое OSWorld и почему это важно?
Чтобы понять, почему результат Holo3 вызывает интерес, стоит сначала разобраться с тем, как вообще измеряют способность ИИ работать за компьютером.
Существует специальный тест – OSWorld-Verified. Если коротко, это набор реальных задач на обычном рабочем столе: открыть файл, найти нужную информацию, произвести действие в браузере или офисном приложении. Модель должна сама «видеть» экран и выполнять шаги – без подсказок, без специальных адаптеров, в условиях, максимально приближённых к реальной работе.
Это принципиально сложнее, чем решать задачи по математике или писать код в изолированной среде. Здесь нет чёткого «правильного ответа» – есть реальный интерфейс, который может повести себя неожиданно, и задача, которую нужно довести до конца.
78,85% – это много или мало?
Holo3-122B-A10B набрала 78,85% на OSWorld-Verified, установив новый рекорд среди всех известных моделей в этом тесте.
Для сравнения: несколько месяцев назад результаты лучших агентов на аналогичных задачах были значительно скромнее. Гонка здесь идёт стремительно – примерно так же, как в прошлом году ускорилась гонка языковых моделей после того, как стало ясно, что монополии на прогресс не существует.
Цифра 78,85% означает, что модель справляется почти с четырьмя задачами из пяти в условиях реального рабочего стола. Оставшиеся ~21% – это пространство, где что-то идёт не так: нестандартный интерфейс, неожиданная последовательность действий, пограничная ситуация.
Проще говоря, это уже не «демонстрационная игрушка», но ещё и не инструмент, которому можно доверить что угодно без присмотра.
«Автономное предприятие» – что это за идея?
H позиционирует Holo3 как часть концепции, которую компания называет Autonomous Enterprise – «автономное предприятие».
Идея здесь вот в чём: большая часть офисной работы – это повторяющиеся действия за компьютером. Заполнить отчёт, перенести данные из одной системы в другую, проверить статус задачи, ответить на стандартный запрос. Человек тратит на это часы. ИИ-агент, умеющий работать с обычным интерфейсом, мог бы делать это сам – без специальной интеграции, без API, без того, чтобы под каждую задачу писать отдельный скрипт.
Это принципиально отличается от подхода «подключи ИИ к своей базе данных через API». Агент просто смотрит на экран и действует – как новый сотрудник, которому показали рабочий компьютер.
Почему сейчас, и что происходит в этой нише?
Интерес к компьютерным агентам резко вырос в последние месяцы. Это не случайно.
Во-первых, языковые модели достигли уровня, при котором они достаточно надёжно понимают инструкции и контекст – и им можно доверить выполнение многошаговых задач. Во-вторых, появились методы, позволяющие модели «видеть» экран и интерпретировать визуальный интерфейс, а не только текст.
OpenAI движется в том же направлении: GPT-5.4, выпущенная в начале марта 2026 года, была представлена именно как первая модель компании со встроенной поддержкой работы на компьютере пользователя в режиме агента. Alibaba в своём мультимодальном Qwen3.5-Omni обнаружила, что модель способна писать код, просматривая видеозапись экрана – причём эту способность не закладывали намеренно, она возникла сама.
То есть сразу несколько крупных игроков движутся к одной точке, но с разных сторон. H идёт напрямую – через специализированную модель, заточенную именно под управление рабочим столом.
Что это означает на практике?
Если коротко – пока ещё немного, но вектор понятен.
Результат 78,85% в тесте – это не то же самое, что «работает в реальной компании». Тест устроен аккуратно, условия воспроизводимы. Реальный офис – это другое: старые версии программ, нестандартные конфигурации, задачи, которые никто не формулировал явно.
Но такие результаты говорят о том, что технология перешла из стадии «интересный эксперимент» в стадию «это уже можно использовать в контролируемых условиях». Следующий шаг – расширение этих условий до чего-то более похожего на реальную рабочую среду.
Для разработчиков и компаний, которые следят за автоматизацией бизнес-процессов, это сигнал: агенты, умеющие работать с обычным компьютерным интерфейсом, – уже не фантастика и не далёкое будущее. Это активно развивающаяся ниша, в которой результаты меняются буквально каждые несколько недель.
Открытым остаётся вопрос надёжности: насколько такой агент справляется, когда что-то идёт не по плану? Как он реагирует на ошибку? Умеет ли остановиться и сообщить о проблеме, а не продолжать действовать в неверном направлении? Это то, что пока сложно измерить одним числом – и то, что будет определять реальную применимость подобных систем.