Опубликовано 21 февраля 2026

DeepSeek на NVIDIA: обработка длинных текстов и преимущества нового оборудования

DeepSeek на новом оборудовании NVIDIA: что изменилось для обработки длинных текстов

NVIDIA и LMSYS протестировали модель DeepSeek на новейшем ускорителе GB300. Результаты показали заметное улучшение по сравнению с предыдущим поколением.

Инфраструктура / Технический контекст 4 – 6 минут чтения

Источник события: LMSYS ORG 4 – 6 минут чтения

Когда речь заходит о больших языковых моделях, обычно обсуждают, насколько «умно» они отвечают. Однако есть другой вопрос, который волнует тех, кто использует такие модели в работе: насколько это быстро и экономично? Особенно когда требуется обрабатывать длинные тексты – большие документы, продолжительные диалоги, объёмные задачи с контекстом на тысячи слов.

Именно этот вопрос стал поводом для нового исследования от команды LMSYS, которая протестировала модель DeepSeek на новом ускорителе NVIDIA GB300 NVL72. Результаты оказались достаточно показательными, чтобы о них рассказать.

Длинный контекст как проблема для языковых моделей

Длинный контекст – это отдельная проблема

Коротко говоря, чем длиннее текст, с которым работает модель, тем больше памяти и вычислительных ресурсов ей необходимо. Это не просто «немного больше» – зависимость нелинейна. При обработке длинных последовательностей модель вынуждена удерживать в памяти огромные промежуточные данные, и именно здесь обычные конфигурации начинают «буксовать».

Проще говоря, если вы хотите, чтобы модель прочитала целую книгу или большой технический документ и ответила на вопросы по нему, нагрузка будет принципиально иной, чем при ответе на короткий вопрос.

DeepSeek в этом смысле интересная модель: она поддерживает очень большое контекстное окно, что делает её привлекательной именно для таких сценариев. Но чтобы это окно действительно работало на практике, требуется соответствующее оборудование.

GB300 NVL72: особенности и назначение нового ускорителя

GB300 NVL72 – что это такое и для чего оно здесь

NVIDIA GB300 NVL72 – это новейшая конфигурация ускорителей, ориентированная на масштабные задачи инференса (то есть на работу уже обученных моделей, а не на их обучение). Главное отличие от предыдущего поколения – существенно больший объём памяти и более высокая скорость её работы.

Для длинных контекстов это критично: именно нехватка памяти и её пропускная способность чаще всего становятся узким местом. GB300 NVL72 устраняет часть этих ограничений.

В исследовании LMSYS сравнивали производительность DeepSeek на GB300 NVL72 с предыдущим поколением – H100 NVL8. Это объективное сравнение: H100 – широко распространённая конфигурация, которую сейчас используют многие.

Результаты тестирования DeepSeek на новом оборудовании

Что показали тесты

Результаты оказались заметными по нескольким направлениям.

Во-первых, скорость генерации на длинных контекстах значительно выросла. На коротких запросах разница между поколениями оборудования обычно не так драматична. Но чем длиннее контекст, тем сильнее GB300 вырывается вперёд. Это именно та ситуация, когда новое оборудование решает реальную проблему, а не просто добавляет проценты к бенчмарку.

Во-вторых, пропускная способность системы – то есть сколько запросов она может обработать одновременно – также возросла. Это важно для практического развёртывания: если модель быстрее справляется с каждым запросом, она может обслуживать больше пользователей параллельно.

В-третьих, исследователи отметили улучшения в так называемом prefill – это этап, когда модель «читает» входной текст перед тем, как начать генерировать ответ. На длинных контекстах этот этап может занимать значительное время, и именно здесь GB300 показал особенно заметный прирост.

Экономическая выгода от ускорения обработки языковых моделей

Почему это не просто о скорости

Скорость – это удобно, но за ней стоит нечто более практичное: стоимость.

Когда модель работает быстрее и обрабатывает больше запросов на одном и том же оборудовании, стоимость каждого запроса снижается. Для сервисов, которые работают с большими объёмами текста – юридические документы, медицинские записи, код, длинные диалоги с поддержкой – это прямая экономия.

Кроме того, длинный контекст открывает сценарии, которые раньше были просто нереалистичны в реальном времени. Например, анализ большого контракта с немедленным ответом или агентная система, которая ведёт длительную историю взаимодействий без потери контекста.

Нюансы и перспективы внедрения нового оборудования

Несколько нюансов, которые стоит учитывать

Результаты выглядят убедительно, но есть контекст, который важно принять во внимание.

GB300 NVL72 – это очень дорогое и пока не повсеместно доступное оборудование. Большинство компаний сейчас работают на H100 или более ранних конфигурациях. Так что речь идёт о перспективе, а не о том, что завтра все перейдут на новую инфраструктуру.

Также стоит учесть, что тесты проводились в специфических условиях – на конкретной модели (DeepSeek) и в конкретной конфигурации. Насколько эти результаты применимы к другим моделям и другим рабочим нагрузкам – отдельный вопрос, который потребует дополнительных проверок.

И наконец, сам факт того, что LMSYS и NVIDIA публикуют такие результаты, – это не просто технический отчёт. Это часть более широкого обсуждения того, как индустрия будет справляться с растущими требованиями к длинным контекстам. Спрос на это растёт: модели становятся умнее, задачи – сложнее, документы – длиннее.

Перспективы развития технологий для обработки длинных контекстов

Итог: оборудование догоняет амбиции моделей

Долгое время складывалась немного парадоксальная ситуация: модели умели работать с очень длинными текстами в теории, но на практике это было слишком медленно или слишком дорого, чтобы использовать их по-настоящему.

GB300 NVL72 делает шаг в сторону закрытия этого разрыва. Не полностью и не для всех прямо сейчас, но направление понятно. Длинный контекст перестаёт быть экзотикой и постепенно становится нормой, которую можно поддерживать на реальной инфраструктуре с приемлемыми характеристиками.

Для тех, кто создаёт продукты на основе языковых моделей, это хороший сигнал: сценарии, которые казались преждевременными год назад, начинают становиться инженерно реалистичными.

#аналитика #прикладной разбор #развитие ии #инженерия #компьютерные системы #бизнес #масштабирование моделей #оптимизация инференса

Ссылка на публикацию: https://lmsys.org/blog/2026-02-19-gb300-longctx

Оригинальное название: Deploying DeepSeek on GB300 NVL72: Big Wins in Long-Context Inference

Дата публикации: 19 фев 2026

LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.

Предыдущая статья GGML и llama.cpp вошли в состав Hugging Face: что это значит для локального ИИ Следующая статья OpenHands Index: как разработчики улучшают оценку ИИ-агентов, работающих с кодом

DeepSeek на NVIDIA: обработка длинных текстов и преимущества нового оборудования

Длинный контекст как проблема для языковых моделей

GB300 NVL72: особенности и назначение нового ускорителя

Результаты тестирования DeepSeek на новом оборудовании

Экономическая выгода от ускорения обработки языковых моделей

Нюансы и перспективы внедрения нового оборудования

Перспективы развития технологий для обработки длинных контекстов

Связанные публикации

GLM-4.7-Flash: открытая и бесплатная языковая модель

NVIDIA открывает доступ к моделям, данным и инструментам для ускорения разработки ИИ

Как ИИ помогает учёным решать реальные задачи: от лаборатории до полевых исследований

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации