ИИ-агенты – это уже не просто чат-боты, которые отвечают на вопросы. Это программы, которые действуют: запускают код, открывают браузер, работают с файлами, выполняют многошаговые задачи. Всё это требует не только мощного ИИ, но и продуманной инфраструктуры – среды, где каждый агент может работать изолированно, быстро и безопасно.
Kimi – один из популярных ИИ-ассистентов, разработанных китайской компанией Moonshot AI. Его особенность – длинный контекст и возможность работать как полноценный агент: искать информацию, анализировать документы, писать и запускать код. Когда число пользователей растёт, а задачи становятся сложнее, возникает закономерный вопрос: как это вообще держится? На чём работает, как масштабируется и что не даёт агентам одного пользователя «мешать» агентам другого?
Агент – это не просто ответ, это действие
Когда обычная языковая модель отвечает на вопрос, она просто генерирует текст. Агент делает больше: он может решить, что для ответа нужно сначала что-то сделать – запустить скрипт, зайти на сайт, открыть файл. Проще говоря, агент – это модель, у которой есть «руки».
Но именно здесь начинается инфраструктурная головная боль. Если агент запускает код, этот код нужно где-то исполнять. Причём так, чтобы:
- код одного пользователя не мог повлиять на данные другого;
- среда разворачивалась быстро – пользователь не хочет ждать;
- ресурсы не расходовались впустую, когда агент простаивает;
- система выдерживала резкие всплески нагрузки – например, если сотни тысяч человек одновременно запустили агентов.
Для Kimi это не абстрактная задача – это ежедневная реальность.
Своя среда для каждого – изоляция как основа
Ключевое архитектурное решение, которое выбрала команда Kimi, – это изолированные песочницы. Каждый агент работает в собственной отдельной среде, как если бы у каждого пользователя был свой небольшой виртуальный компьютер.
Это важно по двум причинам. Первая – безопасность: что бы агент ни делал внутри своей песочницы, это не затронет других. Вторая – предсказуемость: среда у каждого одинакова, её поведение можно контролировать.
Для реализации этого Kimi использует облачную инфраструктуру Alibaba Cloud. Конкретно – две службы: ACK (Alibaba Cloud Container Service for Kubernetes) и ACS (Alibaba Cloud Serverless Containers). Если без аббревиатур: первая – это платформа для управления контейнерами (небольшими изолированными программными средами), а вторая позволяет запускать эти контейнеры «по требованию», не держа постоянно включёнными серверы.
Мгновенный старт: почему это сложнее, чем кажется
Представьте: пользователь нажимает кнопку, просит агента что-то сделать – и ждёт. Если среда разворачивается 30–60 секунд, это раздражает. Если 2–3 секунды – уже терпимо. Если меньше секунды – вообще незаметно.
Традиционные облачные подходы с этим справляются плохо: запуск полноценной виртуальной машины занимает время. Контейнеры быстрее, но и у них есть порог. Поэтому Kimi использует механизм предварительно прогретых пулов – заранее подготовленных сред, которые уже готовы к работе и ждут назначения. Когда приходит запрос, агенту не нужно ждать «загрузки» – он сразу получает готовое окружение.
Проще говоря, это как держать несколько чистых рабочих мест наготове, чтобы новый сотрудник мог сесть и начать работать немедленно, а не ждать, пока для него соберут стол и настроят компьютер.
Сотни тысяч одновременно: как это вообще возможно
Один из ключевых тезисов в описании инфраструктуры Kimi – поддержка сотен тысяч одновременных агентских сессий. Это серьёзная цифра.
Здесь на первый план выходит эластичность – способность инфраструктуры быстро увеличиваться и уменьшаться в зависимости от нагрузки. Утром все спят – агентов мало, ресурсов нужно меньше. Днём пиковая активность – система быстро разворачивает дополнительные мощности. Вечером нагрузка спадает – лишние ресурсы освобождаются.
Serverless-подход (в данном случае через ACS) позволяет делать именно это: не держать постоянно запущенными тысячи серверов, а выделять вычислительные ресурсы только тогда, когда они реально нужны. Это и дешевле, и эффективнее.
При этом важна не просто скорость масштабирования, но и его точность: система должна предсказать, сколько ресурсов понадобится в ближайшее время, чтобы не создавать очереди, но и не тратить лишнее. Для этого используются механизмы прогнозирования нагрузки – система смотрит на динамику запросов и заблаговременно готовит нужное количество сред.
Агент работает – а что с данными?
Ещё один практический вопрос: агент в процессе работы что-то создаёт – файлы, промежуточные результаты, кэш. Всё это нужно где-то хранить и быстро читать.
Поскольку каждая агентская сессия живёт в своей изолированной среде, важно, чтобы хранилище тоже было организовано соответствующим образом: своё пространство для каждой сессии, быстрый доступ, и при этом отсутствие пересечений между пользователями. В инфраструктуре Kimi это решается через интеграцию с облачными хранилищами Alibaba Cloud, которые монтируются непосредственно внутрь каждой песочницы.
Когда сессия завершается, среда очищается. Это важно не только для безопасности, но и для экономии: незачем хранить то, что больше не нужно.
Сетевая изоляция: агенты в интернете, но под контролем
Многие агентские задачи предполагают доступ в интернет – поиск информации, загрузка данных, взаимодействие с внешними сервисами. Это создаёт потенциальный риск: а вдруг агент сделает что-то нежелательное или получит доступ к чему-то, к чему не должен?
Для этого сетевой трафик каждой песочницы контролируется отдельно. Грубо говоря, агент может выходить в интернет, но только через «управляемые ворота», где можно задать правила: куда можно, куда нельзя, что блокировать. При этом трафик разных пользователей не смешивается – каждая сессия сетевого общения изолирована так же, как и вычислительная среда.
Что это значит для индустрии
История с инфраструктурой Kimi интересна не только сама по себе. Она хорошо отражает общую тенденцию: по мере того как ИИ-агенты становятся частью реальных продуктов, на первый план выходит не только качество самой модели, но и то, как эта модель встроена в работающую систему.
Создать хорошую языковую модель – сложно. Но создать систему, в которой эта модель работает надёжно, быстро и безопасно для сотен тысяч людей одновременно – это отдельная инженерная задача, не менее серьёзная.
Для разработчиков, которые сами строят агентские приложения, опыт Kimi – это полезный пример того, как можно решать проблему масштабирования: не просто «взять больше серверов», а выстроить архитектуру, где эластичность, изоляция и скорость старта заложены с самого начала.
Пока что агентские системы такого масштаба – редкость. Но направление очевидно: ИИ движется от «умного текстового помощника» к «автономному исполнителю задач», и инфраструктура должна успевать за этим переходом.