Если коротко: OpenAI выпустила новую версию своей модели – GPT-5.4. Это, пожалуй, первый случай, когда флагманская языковая модель компании изначально умеет управлять компьютером. Не в виде эксперимента, не посредством дополнительного плагина, а как встроенная, нативная способность.
Что значит «управлять компьютером»?
Звучит несколько пугающе, но на практике всё довольно прозаично. Модель может анализировать скриншот экрана, понимать, что на нём изображено, и отправлять команды – как если бы кто-то двигал мышью и нажимал клавиши. Проще говоря, ИИ видит ваш экран и может взаимодействовать с ним.
Это открывает возможности для автоматизации задач, которые раньше требовали присутствия человека. Например, модель может зайти на сайт магазина, найти нужные продукты по рецепту и оформить заказ. Или открыть таблицу, обработать данные и сохранить результат. Всё это – без необходимости пошагового ручного выполнения операций пользователем.
Откуда появилась эта идея?
Концепция не нова. Уже некоторое время в индустрии обсуждается так называемое «агентное» будущее ИИ. Идея заключается в том, что вместо одного большого помощника, которому задают вопросы, появляется сеть небольших ИИ-агентов. Каждый из них выполняет свою часть задачи: один планирует, другой ищет информацию, третий совершает действие.
GPT-5.4 – это шаг в данном направлении. Причём достаточно конкретный: компания заложила управление компьютером не как отдельную надстройку, а как часть базовой архитектуры модели.
Фундамент для этого закладывался заранее. Ещё раньше OpenAI представила функцию ChatGPT Agent, которая позволяла ИИ брать компьютер под частичный контроль для выполнения конкретных задач. GPT-5.4 делает это системным, а не экспериментальным.
Что ещё изменилось, кроме управления компьютером?
Несколько важных изменений:
- Меньше «выдумок». Вероятность ложных утверждений по сравнению с предыдущей версией снизилась на 33%. Это важно, потому что языковые модели исторически склонны к так называемым «галлюцинациям» – когда ИИ уверенно сообщает информацию, не соответствующую действительности. Прогресс здесь ощутим.
- Лучше работает с несколькими источниками. Модель может провести несколько раундов поиска, собрать информацию из разных мест и выдать связный, аргументированный ответ. Раньше это было слабым местом.
- Улучшения в программировании и работе с документами. GPT-5.4 лучше справляется с кодом, таблицами, презентациями и текстовыми документами. Для тех, кто использует ИИ в рабочих задачах, это заметное улучшение.
Версии на любой вкус и бюджет
Вместе с флагманской GPT-5.4 компания выпустила несколько вариантов для разных задач.
GPT-5.4 Thinking – версия с усиленными возможностями рассуждения. Она умеет показывать краткий план своих «мыслей» при работе над сложными задачами. Кроме того, пользователь может скорректировать запрос прямо в процессе ответа – не дожидаясь его завершения.
GPT-5.4 Pro – для максимально сложных задач. Доступна через корпоративные и образовательные подписки.
Отдельно вышли GPT-5.4 mini и GPT-5.4 nano – компактные версии, ориентированные на скорость и низкую стоимость. Они предназначены прежде всего для разработчиков: для автоматизации повторяющихся задач, работы в роли «субагентов» внутри более сложных систем, исправления кода и обработки данных.
GPT-5.4 mini, по заявлению компании, работает более чем в два раза быстрее предыдущей компактной версии и при этом почти не уступает флагманской модели в задачах программирования. Это означает, что разработчики смогут использовать более дешёвый вариант без существенной потери качества – и это довольно важно с практической точки зрения.
GPT-5.4 nano – ещё проще и быстрее. Её задача – выполнять вспомогательные операции: сортировку, извлечение данных из текста, простые вычисления.
А что с GPT-5?
Параллельно с этими релизами OpenAI представила GPT-5 – новое поколение модели с расширенной долговременной памятью и улучшенной точностью. Сэм Альтман, генеральный директор компании, охарактеризовал переход на GPT-5 как качественный скачок:
"Если GPT-3 напоминал школьника, а GPT-4 – студента колледжа, то GPT-5 похож на эксперта с докторской степенью."
GPT-5 доступен всем пользователям ChatGPT, включая обладателей бесплатных аккаунтов, хотя для них введён лимит на количество запросов. Через программный интерфейс разработчикам доступны три версии: GPT-5, GPT-5 mini и GPT-5 nano.
Что это значит в перспективе?
Если смотреть на картину в целом, происходит следующее: ИИ постепенно перестаёт быть просто «чат-ботом, которому задают вопросы» и становится инструментом, который умеет делать вещи. Не только отвечать, но и действовать.
Для обычного пользователя это означает, что задачи, которые раньше требовали вручную открывать десятки вкладок, копировать данные, заполнять формы – потенциально можно будет просто описать словами и получить результат. Насколько надёжно и безопасно это работает в реальных условиях – вопрос, который пока остаётся открытым. Управление компьютером от имени пользователя – это область, где цена ошибки выше, чем просто неточный ответ в чате.
Для разработчиков появление компактных моделей с агентными возможностями означает, что строить такие системы становится дешевле и быстрее. Субагентная архитектура – когда один ИИ управляет несколькими более простыми – становится всё более доступной на практике, а не только в теории.
Индустрия явно движется в одном направлении: автоматизация через ИИ-агентов. GPT-5.4 – один из наиболее конкретных шагов в этом направлении на сегодняшний день. 🤖