Опубликовано 21 февраля 2026

DeepSeek на NVIDIA: обработка длинных текстов и преимущества нового оборудования

DeepSeek на новом оборудовании NVIDIA: что изменилось для обработки длинных текстов

NVIDIA и LMSYS протестировали модель DeepSeek на новейшем ускорителе GB300. Результаты показали заметное улучшение по сравнению с предыдущим поколением.

Инфраструктура / Технический контекст 4 – 6 минут чтения
Источник события: LMSYS ORG 4 – 6 минут чтения

Когда речь заходит о больших языковых моделях, обычно обсуждают, насколько «умно» они отвечают. Однако есть другой вопрос, который волнует тех, кто использует такие модели в работе: насколько это быстро и экономично? Особенно когда требуется обрабатывать длинные тексты – большие документы, продолжительные диалоги, объёмные задачи с контекстом на тысячи слов.

Именно этот вопрос стал поводом для нового исследования от команды LMSYS, которая протестировала модель DeepSeek на новом ускорителе NVIDIA GB300 NVL72. Результаты оказались достаточно показательными, чтобы о них рассказать.

Длинный контекст как проблема для языковых моделей

Длинный контекст – это отдельная проблема

Коротко говоря, чем длиннее текст, с которым работает модель, тем больше памяти и вычислительных ресурсов ей необходимо. Это не просто «немного больше» – зависимость нелинейна. При обработке длинных последовательностей модель вынуждена удерживать в памяти огромные промежуточные данные, и именно здесь обычные конфигурации начинают «буксовать».

Проще говоря, если вы хотите, чтобы модель прочитала целую книгу или большой технический документ и ответила на вопросы по нему, нагрузка будет принципиально иной, чем при ответе на короткий вопрос.

DeepSeek в этом смысле интересная модель: она поддерживает очень большое контекстное окно, что делает её привлекательной именно для таких сценариев. Но чтобы это окно действительно работало на практике, требуется соответствующее оборудование.

GB300 NVL72: особенности и назначение нового ускорителя

GB300 NVL72 – что это такое и для чего оно здесь

NVIDIA GB300 NVL72 – это новейшая конфигурация ускорителей, ориентированная на масштабные задачи инференса (то есть на работу уже обученных моделей, а не на их обучение). Главное отличие от предыдущего поколения – существенно больший объём памяти и более высокая скорость её работы.

Для длинных контекстов это критично: именно нехватка памяти и её пропускная способность чаще всего становятся узким местом. GB300 NVL72 устраняет часть этих ограничений.

В исследовании LMSYS сравнивали производительность DeepSeek на GB300 NVL72 с предыдущим поколением – H100 NVL8. Это объективное сравнение: H100 – широко распространённая конфигурация, которую сейчас используют многие.

Результаты тестирования DeepSeek на новом оборудовании

Что показали тесты

Результаты оказались заметными по нескольким направлениям.

Во-первых, скорость генерации на длинных контекстах значительно выросла. На коротких запросах разница между поколениями оборудования обычно не так драматична. Но чем длиннее контекст, тем сильнее GB300 вырывается вперёд. Это именно та ситуация, когда новое оборудование решает реальную проблему, а не просто добавляет проценты к бенчмарку.

Во-вторых, пропускная способность системы – то есть сколько запросов она может обработать одновременно – также возросла. Это важно для практического развёртывания: если модель быстрее справляется с каждым запросом, она может обслуживать больше пользователей параллельно.

В-третьих, исследователи отметили улучшения в так называемом prefill – это этап, когда модель «читает» входной текст перед тем, как начать генерировать ответ. На длинных контекстах этот этап может занимать значительное время, и именно здесь GB300 показал особенно заметный прирост.

Экономическая выгода от ускорения обработки языковых моделей

Почему это не просто о скорости

Скорость – это удобно, но за ней стоит нечто более практичное: стоимость.

Когда модель работает быстрее и обрабатывает больше запросов на одном и том же оборудовании, стоимость каждого запроса снижается. Для сервисов, которые работают с большими объёмами текста – юридические документы, медицинские записи, код, длинные диалоги с поддержкой – это прямая экономия.

Кроме того, длинный контекст открывает сценарии, которые раньше были просто нереалистичны в реальном времени. Например, анализ большого контракта с немедленным ответом или агентная система, которая ведёт длительную историю взаимодействий без потери контекста.

Нюансы и перспективы внедрения нового оборудования

Несколько нюансов, которые стоит учитывать

Результаты выглядят убедительно, но есть контекст, который важно принять во внимание.

GB300 NVL72 – это очень дорогое и пока не повсеместно доступное оборудование. Большинство компаний сейчас работают на H100 или более ранних конфигурациях. Так что речь идёт о перспективе, а не о том, что завтра все перейдут на новую инфраструктуру.

Также стоит учесть, что тесты проводились в специфических условиях – на конкретной модели (DeepSeek) и в конкретной конфигурации. Насколько эти результаты применимы к другим моделям и другим рабочим нагрузкам – отдельный вопрос, который потребует дополнительных проверок.

И наконец, сам факт того, что LMSYS и NVIDIA публикуют такие результаты, – это не просто технический отчёт. Это часть более широкого обсуждения того, как индустрия будет справляться с растущими требованиями к длинным контекстам. Спрос на это растёт: модели становятся умнее, задачи – сложнее, документы – длиннее.

Перспективы развития технологий для обработки длинных контекстов

Итог: оборудование догоняет амбиции моделей

Долгое время складывалась немного парадоксальная ситуация: модели умели работать с очень длинными текстами в теории, но на практике это было слишком медленно или слишком дорого, чтобы использовать их по-настоящему.

GB300 NVL72 делает шаг в сторону закрытия этого разрыва. Не полностью и не для всех прямо сейчас, но направление понятно. Длинный контекст перестаёт быть экзотикой и постепенно становится нормой, которую можно поддерживать на реальной инфраструктуре с приемлемыми характеристиками.

Для тех, кто создаёт продукты на основе языковых моделей, это хороший сигнал: сценарии, которые казались преждевременными год назад, начинают становиться инженерно реалистичными.

Ссылка на публикацию: https://lmsys.org/blog/2026-02-19-gb300-longctx
Оригинальное название: Deploying DeepSeek on GB300 NVL72: Big Wins in Long-Context Inference
Дата публикации: 19 фев 2026
LMSYS ORG lmsys.org Американская некоммерческая исследовательская организация, изучающая масштабируемые языковые модели и системы распределённого обучения.
Предыдущая статья GGML и llama.cpp вошли в состав Hugging Face: что это значит для локального ИИ Следующая статья OpenHands Index: как разработчики улучшают оценку ИИ-агентов, работающих с кодом

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Компактная модель GLM-4.7-Flash теперь доступна как решение с открытым исходным кодом. Это попытка найти баланс между производительностью и возможностью запуска на обычном оборудовании.

Zhipu AIwww.zhipuai.cn 20 янв 2026

Microsoft рассказывает о пяти направлениях, где искусственный интеллект уже применяется для решения научных задач – от разработки лекарств до защиты дикой природы.

Microsoftwww.microsoft.com 9 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться