Опубликовано 1 апреля 2026

SGLang на NVIDIA GTC 2026: ключевые события и развитие AI-инфраструктуры

SGLang на NVIDIA GTC 2026: что происходило за кулисами одной из главных AI-конференций

SGLang принял участие в NVIDIA GTC 2026 сразу в нескольких форматах: от упоминания в ключевом докладе до митапа на 200 человек и практической лаборатории.

Инфраструктура / Технический контекст 4 – 6 минут чтения
Источник события: LMSYS ORG 4 – 6 минут чтения

Не каждый AI-проект добирается до главной сцены NVIDIA GTC. SGLang добрался. Причём не в одном формате, а сразу в пяти: панельная дискуссия, обучающая лаборатория, неформальный вечер с коллегами по индустрии, митап на 200 человек и – отдельный повод для гордости – упоминание в ключевом докладе Дженсена Хуанга.

Если вы следите за тем, как формируется инфраструктура для работы с большими языковыми моделями, происходящее на GTC 2026 стоит знать. Это не просто отчёт о конференции – это срез того, в каком направлении движется вся отрасль.

На главной сцене: упоминание в кейноуте и панельная дискуссия

На главной сцене: от слайда в кейноуте до панельной дискуссии

Во время ключевого доклада Дженсена Хуанга на экране появился слайд с экосистемой NVIDIA AI – и среди компонентов этой экосистемы оказался SGLang. Для open-source проекта попасть в такой список – весомый сигнал: это означает признание на уровне платформы, а не просто симпатию со стороны отдельных инженеров.

Чуть позже, во вторник, Ин Шэн – один из ключевых участников команды SGLang – вышла на сцену в рамках панельной дискуссии «Состояние открытого ИИ». Рядом с ней сидели представители NVIDIA, Калифорнийского университета в Беркли, Hugging Face и Ai2. Разговор шёл о том, как open-source-экосистема превращается из экспериментального пространства в настоящий производственный фундамент: надёжный, воспроизводимый и пригодный для развёртывания в реальных системах.

Если коротко: открытый ИИ перестал быть альтернативой «для тех, кто не может позволить себе проприетарные решения» – он стал основным инструментом исследований и внедрений.

Практическое занятие: лаборатория по производительности LLM с SGLang

Практика в четверг утром: лаборатория по производительности

В четверг команда RadixArk провела официальную обучающую лабораторию в рамках GTC – «Высокопроизводительное обслуживание и обучение LLM с SGLang». Это был не доклад, а именно практическое занятие.

Три темы лаборатории охватывали разные стороны работы с языковыми моделями в реальных условиях:

  • Настройка производительности при обслуживании запросов – как сократить время ответа и увеличить пропускную способность системы;
  • Поиск узких мест – методичный разбор того, где и почему системы «тормозят»;
  • Интеграция SGLang с фреймворком Miles для обучения с подкреплением – с живой демонстрацией того, как SGLang работает внутри реального цикла обучения модели.

Последний пункт заслуживает отдельного внимания. Miles – это фреймворк для так называемого RL-обучения (обучения с подкреплением), разработанный специально под нужды крупных моделей смешанных экспертов. Проще говоря, это инструмент для того, чтобы «дообучать» большие модели после их первоначального создания – и делать это эффективно, без лишних накладных расходов.

Неформальный ужин: встреча с создателями AI-инфраструктуры

Вечер с теми, кто строит инфраструктуру

Во вторник вечером SGLang и RadixArk провели совместный неформальный ужин для участников конференции. Пришли инженеры и исследователи из OpenAI, xAI, DeepMind, Meta, NVIDIA, Ollama и других команд.

На вечере прозвучало два технических выступления. Банхуа Чжу из RadixArk рассказал про Miles – уже упомянутый фреймворк для RL-обучения. Джейсон Чжао из ScitiX представил SiMM – open-source движок для хранения так называемого KV-кеша прямо в оперативной памяти. Если объяснять без терминологии: это способ ускорить работу с длинными текстами, не теряя контекст между запросами.

Параллельно Банхуа Чжу выступил на отдельном мероприятии Novita, где собралось более 700 участников. Там разговор шёл о более широких тенденциях: об удешевлении инференса (то есть стоимости работы модели в реальном времени), об агентных системах – когда ИИ не просто отвечает на вопросы, а выполняет многошаговые задачи – и о том, что нужно, чтобы AI-продукты приносили реальную пользу, а не просто впечатляли на демо.

Митап: LLM в поиске и рекомендациях, выступления LinkedIn и TikTok

Митап на 200 человек: LLM в поиске и рекомендациях

В среду вечером в штаб-квартире LinkedIn в Маунтин-Вью прошёл митап, на который пришло около 200 инженеров. Это, пожалуй, самое насыщенное мероприятие недели – и по содержанию, и по составу участников.

Что показала команда LinkedIn

LinkedIn открыл вечер тремя инженерными докладами. Один из них был особенно показательным: команда рассказала о том, как они реализовали режим обслуживания запросов, ориентированный только на этап предобработки входных данных – и получили рост пропускной способности в 2–3 раза на видеокартах H100. Это улучшение впоследствии было передано обратно в основной SGLang – то есть теперь им могут воспользоваться все.

Это хорошая иллюстрация того, как устроено сотрудничество в open-source: крупная компания улучшает инструмент под свои нужды – и возвращает улучшение сообществу.

Дорожная карта SGLang и фреймворк Miles

Разработчик SGLang Лянчэн Инь представил дорожную карту проекта на первую половину 2026 года.

Следом Мао Чэн детально рассмотрел Miles – фреймворк для RL-обучения. Центральная проблема, которую он решает: модель ведёт себя по-разному во время обучения и во время реальной работы. Miles устраняет это несоответствие через несколько механизмов, включая технику Rollout Routing Replay (R3) – способ повторно использовать уже сгенерированные данные обучения, не теряя их ценность.

Отраслевые доклады и дискуссия

Представители TikTok рассказали о поиске на основе LLM в промышленных масштабах. Команда Meta поделилась работой над системой ранжирования с использованием генеративного рассуждения. NVIDIA представила связку Dynamo и NeMoRL – инструментов для управления вычислительными нагрузками и RL-обучения.

Завершающая панельная дискуссия охватила целый спектр вопросов: как лучше искать по смыслу – через семантические идентификаторы или через векторные представления; готовы ли объединённые системы поиска и ранжирования к промышленному применению; как непрерывное обучение меняет рекомендательные системы.

Направление развития: роль открытого ИИ и SGLang в индустрии

Что всё это говорит о направлении развития

GTC 2026 дал довольно чёткую картину: производственные команды из крупных технологических компаний всё активнее строят свои системы поверх открытой инфраструктуры. SGLang в этом контексте позиционируется не просто как библиотека, а как общий слой, на который опираются самые разные задачи – от поиска и рекомендаций до обучения с подкреплением и агентных систем.

То, что LinkedIn отдал свои улучшения обратно в проект, а сама команда SGLang представила публичную дорожную карту – это признаки зрелости экосистемы. Открытый ИИ больше не догоняет – он задаёт темп.

Ссылка на публикацию: https://www.lmsys.org/blog/2026-03-25-gtc2026/
Оригинальное название: Highlights of SGLang at NVIDIA GTC 2026
Дата публикации: 31 мар 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Когда банк перестаёт держать в очереди: как ИИ-агенты меняют поддержку клиентов Следующая статья Управление ИИ: почему правила без адаптации превращаются в список обходных путей

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Microsoft и Fireworks AI объединились, чтобы предоставить разработчикам доступ к быстрым открытым моделям прямо из экосистемы Azure – без лишних посредников и инфраструктурной головной боли.

Microsoftwww.microsoft.com 11 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться