Опубликовано 13 марта 2026

Инфраструктура Kimi: как запускать сотни тысяч ИИ-агентов

Как Kimi запускает сотни тысяч ИИ-агентов одновременно: взгляд на инфраструктуру

Разбираемся, как сервис Kimi организовал масштабируемую и безопасную среду для работы ИИ-агентов на облачной платформе Alibaba Cloud.

Инфраструктура 5 – 7 минут чтения
Источник события: Alibaba Cloud 5 – 7 минут чтения

ИИ-агенты – это уже не просто чат-боты, которые отвечают на вопросы. Это программы, которые действуют: запускают код, открывают браузер, работают с файлами, выполняют многошаговые задачи. Всё это требует не только мощного ИИ, но и продуманной инфраструктуры – среды, где каждый агент может работать изолированно, быстро и безопасно.

Kimi – один из популярных ИИ-ассистентов, разработанных китайской компанией Moonshot AI. Его особенность – длинный контекст и возможность работать как полноценный агент: искать информацию, анализировать документы, писать и запускать код. Когда число пользователей растёт, а задачи становятся сложнее, возникает закономерный вопрос: как это вообще держится? На чём работает, как масштабируется и что не даёт агентам одного пользователя «мешать» агентам другого?

ИИ-агент не просто отвечает, он действует

Агент – это не просто ответ, это действие

Когда обычная языковая модель отвечает на вопрос, она просто генерирует текст. Агент делает больше: он может решить, что для ответа нужно сначала что-то сделать – запустить скрипт, зайти на сайт, открыть файл. Проще говоря, агент – это модель, у которой есть «руки».

Но именно здесь начинается инфраструктурная головная боль. Если агент запускает код, этот код нужно где-то исполнять. Причём так, чтобы:

  • код одного пользователя не мог повлиять на данные другого;
  • среда разворачивалась быстро – пользователь не хочет ждать;
  • ресурсы не расходовались впустую, когда агент простаивает;
  • система выдерживала резкие всплески нагрузки – например, если сотни тысяч человек одновременно запустили агентов.

Для Kimi это не абстрактная задача – это ежедневная реальность.

Изоляция как основа: своя среда для каждого агента

Своя среда для каждого – изоляция как основа

Ключевое архитектурное решение, которое выбрала команда Kimi, – это изолированные песочницы. Каждый агент работает в собственной отдельной среде, как если бы у каждого пользователя был свой небольшой виртуальный компьютер.

Это важно по двум причинам. Первая – безопасность: что бы агент ни делал внутри своей песочницы, это не затронет других. Вторая – предсказуемость: среда у каждого одинакова, её поведение можно контролировать.

Для реализации этого Kimi использует облачную инфраструктуру Alibaba Cloud. Конкретно – две службы: ACK (Alibaba Cloud Container Service for Kubernetes) и ACS (Alibaba Cloud Serverless Containers). Если без аббревиатур: первая – это платформа для управления контейнерами (небольшими изолированными программными средами), а вторая позволяет запускать эти контейнеры «по требованию», не держа постоянно включёнными серверы.

Мгновенный старт агентов: сложности и решения

Мгновенный старт: почему это сложнее, чем кажется

Представьте: пользователь нажимает кнопку, просит агента что-то сделать – и ждёт. Если среда разворачивается 30–60 секунд, это раздражает. Если 2–3 секунды – уже терпимо. Если меньше секунды – вообще незаметно.

Традиционные облачные подходы с этим справляются плохо: запуск полноценной виртуальной машины занимает время. Контейнеры быстрее, но и у них есть порог. Поэтому Kimi использует механизм предварительно прогретых пулов – заранее подготовленных сред, которые уже готовы к работе и ждут назначения. Когда приходит запрос, агенту не нужно ждать «загрузки» – он сразу получает готовое окружение.

Проще говоря, это как держать несколько чистых рабочих мест наготове, чтобы новый сотрудник мог сесть и начать работать немедленно, а не ждать, пока для него соберут стол и настроят компьютер.

Как обеспечить одновременную работу сотен тысяч ИИ-агентов

Сотни тысяч одновременно: как это вообще возможно

Один из ключевых тезисов в описании инфраструктуры Kimi – поддержка сотен тысяч одновременных агентских сессий. Это серьёзная цифра.

Здесь на первый план выходит эластичность – способность инфраструктуры быстро увеличиваться и уменьшаться в зависимости от нагрузки. Утром все спят – агентов мало, ресурсов нужно меньше. Днём пиковая активность – система быстро разворачивает дополнительные мощности. Вечером нагрузка спадает – лишние ресурсы освобождаются.

Serverless-подход (в данном случае через ACS) позволяет делать именно это: не держать постоянно запущенными тысячи серверов, а выделять вычислительные ресурсы только тогда, когда они реально нужны. Это и дешевле, и эффективнее.

При этом важна не просто скорость масштабирования, но и его точность: система должна предсказать, сколько ресурсов понадобится в ближайшее время, чтобы не создавать очереди, но и не тратить лишнее. Для этого используются механизмы прогнозирования нагрузки – система смотрит на динамику запросов и заблаговременно готовит нужное количество сред.

Работа агента и хранение данных

Агент работает – а что с данными?

Ещё один практический вопрос: агент в процессе работы что-то создаёт – файлы, промежуточные результаты, кэш. Всё это нужно где-то хранить и быстро читать.

Поскольку каждая агентская сессия живёт в своей изолированной среде, важно, чтобы хранилище тоже было организовано соответствующим образом: своё пространство для каждой сессии, быстрый доступ, и при этом отсутствие пересечений между пользователями. В инфраструктуре Kimi это решается через интеграцию с облачными хранилищами Alibaba Cloud, которые монтируются непосредственно внутрь каждой песочницы.

Когда сессия завершается, среда очищается. Это важно не только для безопасности, но и для экономии: незачем хранить то, что больше не нужно.

Сетевая изоляция агентов: контроль доступа в интернет

Сетевая изоляция: агенты в интернете, но под контролем

Многие агентские задачи предполагают доступ в интернет – поиск информации, загрузка данных, взаимодействие с внешними сервисами. Это создаёт потенциальный риск: а вдруг агент сделает что-то нежелательное или получит доступ к чему-то, к чему не должен?

Для этого сетевой трафик каждой песочницы контролируется отдельно. Грубо говоря, агент может выходить в интернет, но только через «управляемые ворота», где можно задать правила: куда можно, куда нельзя, что блокировать. При этом трафик разных пользователей не смешивается – каждая сессия сетевого общения изолирована так же, как и вычислительная среда.

Значение инфраструктуры Kimi для ИИ-индустрии

Что это значит для индустрии

История с инфраструктурой Kimi интересна не только сама по себе. Она хорошо отражает общую тенденцию: по мере того как ИИ-агенты становятся частью реальных продуктов, на первый план выходит не только качество самой модели, но и то, как эта модель встроена в работающую систему.

Создать хорошую языковую модель – сложно. Но создать систему, в которой эта модель работает надёжно, быстро и безопасно для сотен тысяч людей одновременно – это отдельная инженерная задача, не менее серьёзная.

Для разработчиков, которые сами строят агентские приложения, опыт Kimi – это полезный пример того, как можно решать проблему масштабирования: не просто «взять больше серверов», а выстроить архитектуру, где эластичность, изоляция и скорость старта заложены с самого начала.

Пока что агентские системы такого масштаба – редкость. Но направление очевидно: ИИ движется от «умного текстового помощника» к «автономному исполнителю задач», и инфраструктура должна успевать за этим переходом.

Оригинальное название: Deep Dive: How Kimi's AI Agent Runs on Alibaba Cloud
Дата публикации: 12 мар 2026
Alibaba Cloud www.alibabacloud.com Китайское облачное и ИИ-подразделение Alibaba, предоставляющее инфраструктуру и сервисы для бизнеса.
Предыдущая статья От приложений к агентам: как бизнес адаптируется под намерения Следующая статья Как Cursor оценивает качество ИИ-моделей в своём редакторе

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Разбираемся, как устроена защита MCP-серверов и клиентов, и почему правильно настроенный контроль доступа важен для любых агентных систем.

Red Hatwww.redhat.com 6 мар 2026

ИИ: События

Как масштабировать vLLM и не допустить ошибок нехватки памяти

Технический контекст Инфраструктура

Команда AI21 Labs поделилась опытом оптимизации vLLM – популярного инструмента для развертывания языковых моделей, который при масштабировании часто сталкивается с критическими ошибками из-за дефицита оперативной памяти.

AI21 Labswww.ai21.com 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться