Опубликовано 31 марта 2026

OpenAI GPT 5.4 управление компьютером: новая эра ИИ автоматизации и агентов

Как ИИ учится работать за компьютером: релиз OpenAI GPT-5.4, агенты и новая эра автоматизации

OpenAI представила GPT-5.4 – модель, способную управлять компьютером, писать код и выполнять задачи в приложениях без участия человека.

Продукты 4 – 6 минут чтения
Источник события: Prime Intellect 4 – 6 минут чтения

Если коротко: OpenAI выпустила новую версию своей модели – GPT-5.4. Это, пожалуй, первый случай, когда флагманская языковая модель компании изначально умеет управлять компьютером. Не в виде эксперимента, не посредством дополнительного плагина, а как встроенная, нативная способность.

Что значит управлять компьютером для ИИ

Что значит «управлять компьютером»?

Звучит несколько пугающе, но на практике всё довольно прозаично. Модель может анализировать скриншот экрана, понимать, что на нём изображено, и отправлять команды – как если бы кто-то двигал мышью и нажимал клавиши. Проще говоря, ИИ видит ваш экран и может взаимодействовать с ним.

Это открывает возможности для автоматизации задач, которые раньше требовали присутствия человека. Например, модель может зайти на сайт магазина, найти нужные продукты по рецепту и оформить заказ. Или открыть таблицу, обработать данные и сохранить результат. Всё это – без необходимости пошагового ручного выполнения операций пользователем.

Концепция агентов ИИ и её развитие

Откуда появилась эта идея?

Концепция не нова. Уже некоторое время в индустрии обсуждается так называемое «агентное» будущее ИИ. Идея заключается в том, что вместо одного большого помощника, которому задают вопросы, появляется сеть небольших ИИ-агентов. Каждый из них выполняет свою часть задачи: один планирует, другой ищет информацию, третий совершает действие.

GPT-5.4 – это шаг в данном направлении. Причём достаточно конкретный: компания заложила управление компьютером не как отдельную надстройку, а как часть базовой архитектуры модели.

Фундамент для этого закладывался заранее. Ещё раньше OpenAI представила функцию ChatGPT Agent, которая позволяла ИИ брать компьютер под частичный контроль для выполнения конкретных задач. GPT-5.4 делает это системным, а не экспериментальным.

Что изменилось в GPT-5.4 кроме управления компьютером

Что ещё изменилось, кроме управления компьютером?

Несколько важных изменений:

  • Меньше «выдумок». Вероятность ложных утверждений по сравнению с предыдущей версией снизилась на 33%. Это важно, потому что языковые модели исторически склонны к так называемым «галлюцинациям» – когда ИИ уверенно сообщает информацию, не соответствующую действительности. Прогресс здесь ощутим.
  • Лучше работает с несколькими источниками. Модель может провести несколько раундов поиска, собрать информацию из разных мест и выдать связный, аргументированный ответ. Раньше это было слабым местом.
  • Улучшения в программировании и работе с документами. GPT-5.4 лучше справляется с кодом, таблицами, презентациями и текстовыми документами. Для тех, кто использует ИИ в рабочих задачах, это заметное улучшение.

Доступные версии GPT-5.4 для разных задач

Версии на любой вкус и бюджет

Вместе с флагманской GPT-5.4 компания выпустила несколько вариантов для разных задач.

GPT-5.4 Thinking – версия с усиленными возможностями рассуждения. Она умеет показывать краткий план своих «мыслей» при работе над сложными задачами. Кроме того, пользователь может скорректировать запрос прямо в процессе ответа – не дожидаясь его завершения.

GPT-5.4 Pro – для максимально сложных задач. Доступна через корпоративные и образовательные подписки.

Отдельно вышли GPT-5.4 mini и GPT-5.4 nano – компактные версии, ориентированные на скорость и низкую стоимость. Они предназначены прежде всего для разработчиков: для автоматизации повторяющихся задач, работы в роли «субагентов» внутри более сложных систем, исправления кода и обработки данных.

GPT-5.4 mini, по заявлению компании, работает более чем в два раза быстрее предыдущей компактной версии и при этом почти не уступает флагманской модели в задачах программирования. Это означает, что разработчики смогут использовать более дешёвый вариант без существенной потери качества – и это довольно важно с практической точки зрения.

GPT-5.4 nano – ещё проще и быстрее. Её задача – выполнять вспомогательные операции: сортировку, извлечение данных из текста, простые вычисления.

Обзор новой версии GPT-5

А что с GPT-5?

Параллельно с этими релизами OpenAI представила GPT-5 – новое поколение модели с расширенной долговременной памятью и улучшенной точностью. Сэм Альтман, генеральный директор компании, охарактеризовал переход на GPT-5 как качественный скачок:

"Если GPT-3 напоминал школьника, а GPT-4 – студента колледжа, то GPT-5 похож на эксперта с докторской степенью."

GPT-5 доступен всем пользователям ChatGPT, включая обладателей бесплатных аккаунтов, хотя для них введён лимит на количество запросов. Через программный интерфейс разработчикам доступны три версии: GPT-5, GPT-5 mini и GPT-5 nano.

Перспективы развития ИИ: автоматизация и агенты

Что это значит в перспективе?

Если смотреть на картину в целом, происходит следующее: ИИ постепенно перестаёт быть просто «чат-ботом, которому задают вопросы» и становится инструментом, который умеет делать вещи. Не только отвечать, но и действовать.

Для обычного пользователя это означает, что задачи, которые раньше требовали вручную открывать десятки вкладок, копировать данные, заполнять формы – потенциально можно будет просто описать словами и получить результат. Насколько надёжно и безопасно это работает в реальных условиях – вопрос, который пока остаётся открытым. Управление компьютером от имени пользователя – это область, где цена ошибки выше, чем просто неточный ответ в чате.

Для разработчиков появление компактных моделей с агентными возможностями означает, что строить такие системы становится дешевле и быстрее. Субагентная архитектура – когда один ИИ управляет несколькими более простыми – становится всё более доступной на практике, а не только в теории.

Индустрия явно движется в одном направлении: автоматизация через ИИ-агентов. GPT-5.4 – один из наиболее конкретных шагов в этом направлении на сегодняшний день. 🤖

Ссылка на публикацию: https://www.primeintellect.ai/blog/bb-collaboration
Оригинальное название: Partnering with Browserbase to Train Browser and Computer Use Agents
Дата публикации: 30 мар 2026
Prime Intellect www.primeintellect.ai Международная исследовательская инициатива, работающая над децентрализованной инфраструктурой и обучением искусственного интеллекта с использованием распределённых вычислений.
Предыдущая статья Как ИИ-агенты меняют подход к базам данных Следующая статья Как мобильные сети становятся умнее: SK Telecom и NTT DOCOMO опубликовали совместный документ о будущем радиосетей

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Команда Cursor открыла доступ к экспериментальной функции, которая позволяет ИИ самостоятельно работать с кодом проекта в течение нескольких итераций без участия пользователя.

Cursor AIcursor.com 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться