Опубликовано 13 марта 2026

Инфраструктура Kimi: как запускать сотни тысяч ИИ-агентов

Как Kimi запускает сотни тысяч ИИ-агентов одновременно: взгляд на инфраструктуру

Разбираемся, как сервис Kimi организовал масштабируемую и безопасную среду для работы ИИ-агентов на облачной платформе Alibaba Cloud.

Инфраструктура 5 – 7 минут чтения
Источник события: Alibaba Cloud 5 – 7 минут чтения

ИИ-агенты – это уже не просто чат-боты, которые отвечают на вопросы. Это программы, которые действуют: запускают код, открывают браузер, работают с файлами, выполняют многошаговые задачи. Всё это требует не только мощного ИИ, но и продуманной инфраструктуры – среды, где каждый агент может работать изолированно, быстро и безопасно.

Kimi – один из популярных ИИ-ассистентов, разработанных китайской компанией Moonshot AI. Его особенность – длинный контекст и возможность работать как полноценный агент: искать информацию, анализировать документы, писать и запускать код. Когда число пользователей растёт, а задачи становятся сложнее, возникает закономерный вопрос: как это вообще держится? На чём работает, как масштабируется и что не даёт агентам одного пользователя «мешать» агентам другого?

ИИ-агент не просто отвечает, он действует

Агент – это не просто ответ, это действие

Когда обычная языковая модель отвечает на вопрос, она просто генерирует текст. Агент делает больше: он может решить, что для ответа нужно сначала что-то сделать – запустить скрипт, зайти на сайт, открыть файл. Проще говоря, агент – это модель, у которой есть «руки».

Но именно здесь начинается инфраструктурная головная боль. Если агент запускает код, этот код нужно где-то исполнять. Причём так, чтобы:

  • код одного пользователя не мог повлиять на данные другого;
  • среда разворачивалась быстро – пользователь не хочет ждать;
  • ресурсы не расходовались впустую, когда агент простаивает;
  • система выдерживала резкие всплески нагрузки – например, если сотни тысяч человек одновременно запустили агентов.

Для Kimi это не абстрактная задача – это ежедневная реальность.

Изоляция как основа: своя среда для каждого агента

Своя среда для каждого – изоляция как основа

Ключевое архитектурное решение, которое выбрала команда Kimi, – это изолированные песочницы. Каждый агент работает в собственной отдельной среде, как если бы у каждого пользователя был свой небольшой виртуальный компьютер.

Это важно по двум причинам. Первая – безопасность: что бы агент ни делал внутри своей песочницы, это не затронет других. Вторая – предсказуемость: среда у каждого одинакова, её поведение можно контролировать.

Для реализации этого Kimi использует облачную инфраструктуру Alibaba Cloud. Конкретно – две службы: ACK (Alibaba Cloud Container Service for Kubernetes) и ACS (Alibaba Cloud Serverless Containers). Если без аббревиатур: первая – это платформа для управления контейнерами (небольшими изолированными программными средами), а вторая позволяет запускать эти контейнеры «по требованию», не держа постоянно включёнными серверы.

Мгновенный старт агентов: сложности и решения

Мгновенный старт: почему это сложнее, чем кажется

Представьте: пользователь нажимает кнопку, просит агента что-то сделать – и ждёт. Если среда разворачивается 30–60 секунд, это раздражает. Если 2–3 секунды – уже терпимо. Если меньше секунды – вообще незаметно.

Традиционные облачные подходы с этим справляются плохо: запуск полноценной виртуальной машины занимает время. Контейнеры быстрее, но и у них есть порог. Поэтому Kimi использует механизм предварительно прогретых пулов – заранее подготовленных сред, которые уже готовы к работе и ждут назначения. Когда приходит запрос, агенту не нужно ждать «загрузки» – он сразу получает готовое окружение.

Проще говоря, это как держать несколько чистых рабочих мест наготове, чтобы новый сотрудник мог сесть и начать работать немедленно, а не ждать, пока для него соберут стол и настроят компьютер.

Как обеспечить одновременную работу сотен тысяч ИИ-агентов

Сотни тысяч одновременно: как это вообще возможно

Один из ключевых тезисов в описании инфраструктуры Kimi – поддержка сотен тысяч одновременных агентских сессий. Это серьёзная цифра.

Здесь на первый план выходит эластичность – способность инфраструктуры быстро увеличиваться и уменьшаться в зависимости от нагрузки. Утром все спят – агентов мало, ресурсов нужно меньше. Днём пиковая активность – система быстро разворачивает дополнительные мощности. Вечером нагрузка спадает – лишние ресурсы освобождаются.

Serverless-подход (в данном случае через ACS) позволяет делать именно это: не держать постоянно запущенными тысячи серверов, а выделять вычислительные ресурсы только тогда, когда они реально нужны. Это и дешевле, и эффективнее.

При этом важна не просто скорость масштабирования, но и его точность: система должна предсказать, сколько ресурсов понадобится в ближайшее время, чтобы не создавать очереди, но и не тратить лишнее. Для этого используются механизмы прогнозирования нагрузки – система смотрит на динамику запросов и заблаговременно готовит нужное количество сред.

Работа агента и хранение данных

Агент работает – а что с данными?

Ещё один практический вопрос: агент в процессе работы что-то создаёт – файлы, промежуточные результаты, кэш. Всё это нужно где-то хранить и быстро читать.

Поскольку каждая агентская сессия живёт в своей изолированной среде, важно, чтобы хранилище тоже было организовано соответствующим образом: своё пространство для каждой сессии, быстрый доступ, и при этом отсутствие пересечений между пользователями. В инфраструктуре Kimi это решается через интеграцию с облачными хранилищами Alibaba Cloud, которые монтируются непосредственно внутрь каждой песочницы.

Когда сессия завершается, среда очищается. Это важно не только для безопасности, но и для экономии: незачем хранить то, что больше не нужно.

Сетевая изоляция агентов: контроль доступа в интернет

Сетевая изоляция: агенты в интернете, но под контролем

Многие агентские задачи предполагают доступ в интернет – поиск информации, загрузка данных, взаимодействие с внешними сервисами. Это создаёт потенциальный риск: а вдруг агент сделает что-то нежелательное или получит доступ к чему-то, к чему не должен?

Для этого сетевой трафик каждой песочницы контролируется отдельно. Грубо говоря, агент может выходить в интернет, но только через «управляемые ворота», где можно задать правила: куда можно, куда нельзя, что блокировать. При этом трафик разных пользователей не смешивается – каждая сессия сетевого общения изолирована так же, как и вычислительная среда.

Значение инфраструктуры Kimi для ИИ-индустрии

Что это значит для индустрии

История с инфраструктурой Kimi интересна не только сама по себе. Она хорошо отражает общую тенденцию: по мере того как ИИ-агенты становятся частью реальных продуктов, на первый план выходит не только качество самой модели, но и то, как эта модель встроена в работающую систему.

Создать хорошую языковую модель – сложно. Но создать систему, в которой эта модель работает надёжно, быстро и безопасно для сотен тысяч людей одновременно – это отдельная инженерная задача, не менее серьёзная.

Для разработчиков, которые сами строят агентские приложения, опыт Kimi – это полезный пример того, как можно решать проблему масштабирования: не просто «взять больше серверов», а выстроить архитектуру, где эластичность, изоляция и скорость старта заложены с самого начала.

Пока что агентские системы такого масштаба – редкость. Но направление очевидно: ИИ движется от «умного текстового помощника» к «автономному исполнителю задач», и инфраструктура должна успевать за этим переходом.

Оригинальное название: Deep Dive: How Kimi's AI Agent Runs on Alibaba Cloud
Дата публикации: 12 мар 2026
Alibaba Cloud www.alibabacloud.com Китайское облачное и ИИ-подразделение Alibaba, предоставляющее инфраструктуру и сервисы для бизнеса.
Предыдущая статья От приложений к агентам: как бизнес адаптируется под намерения Следующая статья Как Cursor оценивает качество ИИ-моделей в своём редакторе

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Разбираемся, как устроена защита MCP-серверов и клиентов, и почему правильно настроенный контроль доступа важен для любых агентных систем.

Red Hatwww.redhat.com 6 мар 2026

ИИ: События

Как масштабировать vLLM и не допустить ошибок нехватки памяти

Технический контекст Инфраструктура

Команда AI21 Labs поделилась опытом оптимизации vLLM – популярного инструмента для развертывания языковых моделей, который при масштабировании часто сталкивается с критическими ошибками из-за дефицита оперативной памяти.

AI21 Labswww.ai21.com 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться