Когда речь заходит о больших языковых моделях, обычно обсуждают, насколько «умно» они отвечают. Однако есть другой вопрос, который волнует тех, кто использует такие модели в работе: насколько это быстро и экономично? Особенно когда требуется обрабатывать длинные тексты – большие документы, продолжительные диалоги, объёмные задачи с контекстом на тысячи слов.
Именно этот вопрос стал поводом для нового исследования от команды LMSYS, которая протестировала модель DeepSeek на новом ускорителе NVIDIA GB300 NVL72. Результаты оказались достаточно показательными, чтобы о них рассказать.
Длинный контекст – это отдельная проблема
Коротко говоря, чем длиннее текст, с которым работает модель, тем больше памяти и вычислительных ресурсов ей необходимо. Это не просто «немного больше» – зависимость нелинейна. При обработке длинных последовательностей модель вынуждена удерживать в памяти огромные промежуточные данные, и именно здесь обычные конфигурации начинают «буксовать».
Проще говоря, если вы хотите, чтобы модель прочитала целую книгу или большой технический документ и ответила на вопросы по нему, нагрузка будет принципиально иной, чем при ответе на короткий вопрос.
DeepSeek в этом смысле интересная модель: она поддерживает очень большое контекстное окно, что делает её привлекательной именно для таких сценариев. Но чтобы это окно действительно работало на практике, требуется соответствующее оборудование.
GB300 NVL72 – что это такое и для чего оно здесь
NVIDIA GB300 NVL72 – это новейшая конфигурация ускорителей, ориентированная на масштабные задачи инференса (то есть на работу уже обученных моделей, а не на их обучение). Главное отличие от предыдущего поколения – существенно больший объём памяти и более высокая скорость её работы.
Для длинных контекстов это критично: именно нехватка памяти и её пропускная способность чаще всего становятся узким местом. GB300 NVL72 устраняет часть этих ограничений.
В исследовании LMSYS сравнивали производительность DeepSeek на GB300 NVL72 с предыдущим поколением – H100 NVL8. Это объективное сравнение: H100 – широко распространённая конфигурация, которую сейчас используют многие.
Что показали тесты
Результаты оказались заметными по нескольким направлениям.
Во-первых, скорость генерации на длинных контекстах значительно выросла. На коротких запросах разница между поколениями оборудования обычно не так драматична. Но чем длиннее контекст, тем сильнее GB300 вырывается вперёд. Это именно та ситуация, когда новое оборудование решает реальную проблему, а не просто добавляет проценты к бенчмарку.
Во-вторых, пропускная способность системы – то есть сколько запросов она может обработать одновременно – также возросла. Это важно для практического развёртывания: если модель быстрее справляется с каждым запросом, она может обслуживать больше пользователей параллельно.
В-третьих, исследователи отметили улучшения в так называемом prefill – это этап, когда модель «читает» входной текст перед тем, как начать генерировать ответ. На длинных контекстах этот этап может занимать значительное время, и именно здесь GB300 показал особенно заметный прирост.
Почему это не просто о скорости
Скорость – это удобно, но за ней стоит нечто более практичное: стоимость.
Когда модель работает быстрее и обрабатывает больше запросов на одном и том же оборудовании, стоимость каждого запроса снижается. Для сервисов, которые работают с большими объёмами текста – юридические документы, медицинские записи, код, длинные диалоги с поддержкой – это прямая экономия.
Кроме того, длинный контекст открывает сценарии, которые раньше были просто нереалистичны в реальном времени. Например, анализ большого контракта с немедленным ответом или агентная система, которая ведёт длительную историю взаимодействий без потери контекста.
Несколько нюансов, которые стоит учитывать
Результаты выглядят убедительно, но есть контекст, который важно принять во внимание.
GB300 NVL72 – это очень дорогое и пока не повсеместно доступное оборудование. Большинство компаний сейчас работают на H100 или более ранних конфигурациях. Так что речь идёт о перспективе, а не о том, что завтра все перейдут на новую инфраструктуру.
Также стоит учесть, что тесты проводились в специфических условиях – на конкретной модели (DeepSeek) и в конкретной конфигурации. Насколько эти результаты применимы к другим моделям и другим рабочим нагрузкам – отдельный вопрос, который потребует дополнительных проверок.
И наконец, сам факт того, что LMSYS и NVIDIA публикуют такие результаты, – это не просто технический отчёт. Это часть более широкого обсуждения того, как индустрия будет справляться с растущими требованиями к длинным контекстам. Спрос на это растёт: модели становятся умнее, задачи – сложнее, документы – длиннее.
Итог: оборудование догоняет амбиции моделей
Долгое время складывалась немного парадоксальная ситуация: модели умели работать с очень длинными текстами в теории, но на практике это было слишком медленно или слишком дорого, чтобы использовать их по-настоящему.
GB300 NVL72 делает шаг в сторону закрытия этого разрыва. Не полностью и не для всех прямо сейчас, но направление понятно. Длинный контекст перестаёт быть экзотикой и постепенно становится нормой, которую можно поддерживать на реальной инфраструктуре с приемлемыми характеристиками.
Для тех, кто создаёт продукты на основе языковых моделей, это хороший сигнал: сценарии, которые казались преждевременными год назад, начинают становиться инженерно реалистичными.