Опубликовано 1 апреля 2026

SGLang на NVIDIA GTC 2026: ключевые события и развитие AI-инфраструктуры

SGLang на NVIDIA GTC 2026: что происходило за кулисами одной из главных AI-конференций

SGLang принял участие в NVIDIA GTC 2026 сразу в нескольких форматах: от упоминания в ключевом докладе до митапа на 200 человек и практической лаборатории.

Инфраструктура / Технический контекст 4 – 6 минут чтения
Источник события: LMSYS ORG 4 – 6 минут чтения

Не каждый AI-проект добирается до главной сцены NVIDIA GTC. SGLang добрался. Причём не в одном формате, а сразу в пяти: панельная дискуссия, обучающая лаборатория, неформальный вечер с коллегами по индустрии, митап на 200 человек и – отдельный повод для гордости – упоминание в ключевом докладе Дженсена Хуанга.

Если вы следите за тем, как формируется инфраструктура для работы с большими языковыми моделями, происходящее на GTC 2026 стоит знать. Это не просто отчёт о конференции – это срез того, в каком направлении движется вся отрасль.

На главной сцене: упоминание в кейноуте и панельная дискуссия

На главной сцене: от слайда в кейноуте до панельной дискуссии

Во время ключевого доклада Дженсена Хуанга на экране появился слайд с экосистемой NVIDIA AI – и среди компонентов этой экосистемы оказался SGLang. Для open-source проекта попасть в такой список – весомый сигнал: это означает признание на уровне платформы, а не просто симпатию со стороны отдельных инженеров.

Чуть позже, во вторник, Ин Шэн – один из ключевых участников команды SGLang – вышла на сцену в рамках панельной дискуссии «Состояние открытого ИИ». Рядом с ней сидели представители NVIDIA, Калифорнийского университета в Беркли, Hugging Face и Ai2. Разговор шёл о том, как open-source-экосистема превращается из экспериментального пространства в настоящий производственный фундамент: надёжный, воспроизводимый и пригодный для развёртывания в реальных системах.

Если коротко: открытый ИИ перестал быть альтернативой «для тех, кто не может позволить себе проприетарные решения» – он стал основным инструментом исследований и внедрений.

Практическое занятие: лаборатория по производительности LLM с SGLang

Практика в четверг утром: лаборатория по производительности

В четверг команда RadixArk провела официальную обучающую лабораторию в рамках GTC – «Высокопроизводительное обслуживание и обучение LLM с SGLang». Это был не доклад, а именно практическое занятие.

Три темы лаборатории охватывали разные стороны работы с языковыми моделями в реальных условиях:

  • Настройка производительности при обслуживании запросов – как сократить время ответа и увеличить пропускную способность системы;
  • Поиск узких мест – методичный разбор того, где и почему системы «тормозят»;
  • Интеграция SGLang с фреймворком Miles для обучения с подкреплением – с живой демонстрацией того, как SGLang работает внутри реального цикла обучения модели.

Последний пункт заслуживает отдельного внимания. Miles – это фреймворк для так называемого RL-обучения (обучения с подкреплением), разработанный специально под нужды крупных моделей смешанных экспертов. Проще говоря, это инструмент для того, чтобы «дообучать» большие модели после их первоначального создания – и делать это эффективно, без лишних накладных расходов.

Неформальный ужин: встреча с создателями AI-инфраструктуры

Вечер с теми, кто строит инфраструктуру

Во вторник вечером SGLang и RadixArk провели совместный неформальный ужин для участников конференции. Пришли инженеры и исследователи из OpenAI, xAI, DeepMind, Meta, NVIDIA, Ollama и других команд.

На вечере прозвучало два технических выступления. Банхуа Чжу из RadixArk рассказал про Miles – уже упомянутый фреймворк для RL-обучения. Джейсон Чжао из ScitiX представил SiMM – open-source движок для хранения так называемого KV-кеша прямо в оперативной памяти. Если объяснять без терминологии: это способ ускорить работу с длинными текстами, не теряя контекст между запросами.

Параллельно Банхуа Чжу выступил на отдельном мероприятии Novita, где собралось более 700 участников. Там разговор шёл о более широких тенденциях: об удешевлении инференса (то есть стоимости работы модели в реальном времени), об агентных системах – когда ИИ не просто отвечает на вопросы, а выполняет многошаговые задачи – и о том, что нужно, чтобы AI-продукты приносили реальную пользу, а не просто впечатляли на демо.

Митап: LLM в поиске и рекомендациях, выступления LinkedIn и TikTok

Митап на 200 человек: LLM в поиске и рекомендациях

В среду вечером в штаб-квартире LinkedIn в Маунтин-Вью прошёл митап, на который пришло около 200 инженеров. Это, пожалуй, самое насыщенное мероприятие недели – и по содержанию, и по составу участников.

Что показала команда LinkedIn

LinkedIn открыл вечер тремя инженерными докладами. Один из них был особенно показательным: команда рассказала о том, как они реализовали режим обслуживания запросов, ориентированный только на этап предобработки входных данных – и получили рост пропускной способности в 2–3 раза на видеокартах H100. Это улучшение впоследствии было передано обратно в основной SGLang – то есть теперь им могут воспользоваться все.

Это хорошая иллюстрация того, как устроено сотрудничество в open-source: крупная компания улучшает инструмент под свои нужды – и возвращает улучшение сообществу.

Дорожная карта SGLang и фреймворк Miles

Разработчик SGLang Лянчэн Инь представил дорожную карту проекта на первую половину 2026 года.

Следом Мао Чэн детально рассмотрел Miles – фреймворк для RL-обучения. Центральная проблема, которую он решает: модель ведёт себя по-разному во время обучения и во время реальной работы. Miles устраняет это несоответствие через несколько механизмов, включая технику Rollout Routing Replay (R3) – способ повторно использовать уже сгенерированные данные обучения, не теряя их ценность.

Отраслевые доклады и дискуссия

Представители TikTok рассказали о поиске на основе LLM в промышленных масштабах. Команда Meta поделилась работой над системой ранжирования с использованием генеративного рассуждения. NVIDIA представила связку Dynamo и NeMoRL – инструментов для управления вычислительными нагрузками и RL-обучения.

Завершающая панельная дискуссия охватила целый спектр вопросов: как лучше искать по смыслу – через семантические идентификаторы или через векторные представления; готовы ли объединённые системы поиска и ранжирования к промышленному применению; как непрерывное обучение меняет рекомендательные системы.

Направление развития: роль открытого ИИ и SGLang в индустрии

Что всё это говорит о направлении развития

GTC 2026 дал довольно чёткую картину: производственные команды из крупных технологических компаний всё активнее строят свои системы поверх открытой инфраструктуры. SGLang в этом контексте позиционируется не просто как библиотека, а как общий слой, на который опираются самые разные задачи – от поиска и рекомендаций до обучения с подкреплением и агентных систем.

То, что LinkedIn отдал свои улучшения обратно в проект, а сама команда SGLang представила публичную дорожную карту – это признаки зрелости экосистемы. Открытый ИИ больше не догоняет – он задаёт темп.

Ссылка на публикацию: https://www.lmsys.org/blog/2026-03-25-gtc2026/
Оригинальное название: Highlights of SGLang at NVIDIA GTC 2026
Дата публикации: 31 мар 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья Когда банк перестаёт держать в очереди: как ИИ-агенты меняют поддержку клиентов Следующая статья Управление ИИ: почему правила без адаптации превращаются в список обходных путей

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Microsoft и Fireworks AI объединились, чтобы предоставить разработчикам доступ к быстрым открытым моделям прямо из экосистемы Azure – без лишних посредников и инфраструктурной головной боли.

Microsoftwww.microsoft.com 11 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться