Большие языковые модели не появляются из ниоткуда. За каждым релизом стоят недели или месяцы вычислений на сотнях мощных видеокарт. Одна из постоянных задач в этой сфере –– ускорить обучение, сделать его дешевле и с меньшими ограничениями по памяти. Именно об этом –– свежий результат совместной работы команд PyTorch и Nebius.
Что произошло?
Инженеры из обеих команд запустили предобучение модели DeepSeek-V3 на кластере из 256 видеокарт NVIDIA B200. DeepSeek-V3 –– это так называемая MoE-модель (Mixture of Experts, или «смесь экспертов»): она содержит 671 миллиард параметров, но в каждый момент времени активна лишь их часть. Это позволяет добиться высокой производительности при относительно умеренных вычислительных затратах –– по крайней мере, по меркам таких масштабов.
Результат: предобучение ускорилось до 41% по сравнению с более ранними подходами. Если коротко –– та же работа, но заметно быстрее.
Благодаря чему это удалось?
Здесь задействованы два независимых улучшения, которые можно применять по отдельности, а вместе они дают суммарный эффект.
Новый формат чисел: MXFP8
Современные нейросети оперируют огромными массивами чисел. От того, в каком формате эти числа хранятся и обрабатываются, напрямую зависит скорость и объём занятой памяти. Чем «легче» формат –– тем быстрее вычисления, но тем выше риск потерять в точности.
MXFP8 –– это один из таких «лёгких» форматов. Его особенность в том, что он умеет точнее контролировать, как именно хранятся числа: небольшие группы значений масштабируются независимо друг от друга. Проще говоря, это позволяет быть одновременно компактным и достаточно точным –– что раньше было трудно совместить.
Применение MXFP8 в процессе обучения DeepSeek-V3 позволило значительно ускорить вычисления без ощутимой потери в качестве финальной модели. При этом важно, что речь идёт именно о предобучении –– самом дорогостоящем этапе, когда модель учится «с нуля» на огромных объёмах текста.
DeepEP: более умная передача данных между GPU
Когда сотни видеокарт работают вместе, между ними постоянно передаются данные. В MoE-моделях это особенно заметно: разные «эксперты» живут на разных GPU, и при каждом шаге обучения нужно доставить нужные данные к нужному эксперту. Это создаёт серьёзную нагрузку на сетевую инфраструктуру.
DeepEP –– это библиотека для оптимизации именно такой коммуникации. Она была разработана командой DeepSeek и ориентирована специально на MoE-архитектуры. Интеграция DeepEP в обучающий фреймворк позволила сократить «простои», когда GPU ждут данных, и тем самым лучше утилизировать аппаратные ресурсы.
При чём здесь TorchTitan?
TorchTitan –– это обучающий фреймворк от команды PyTorch. Его можно описать как набор инструментов и подходов для того, чтобы запускать масштабное обучение больших моделей надёжно и гибко. Именно в него была встроена поддержка как MXFP8, так и DeepEP –– и именно на его базе проводились все эксперименты.
Тестировались две конфигурации: упрощённая версия DeepSeek-V3 на 16 миллиардов параметров и полноразмерная на 671 миллиард. Оба варианта показали существенное ускорение, а качество обучения при этом не пострадало.
Почему это важно шире, чем кажется?
На первый взгляд, это звучит как сугубо техническая история. Но за ней стоит нечто более существенное.
Обучение таких моделей, как DeepSeek-V3, –– это дорого. Очень дорого. Каждый процент ускорения здесь –– это не просто «быстрее», это реальная экономия ресурсов: меньше времени на GPU-кластерах, меньше электроэнергии, меньше денег. При масштабах в сотни видеокарт и неделях вычислений 41% –– это цифра, которая имеет вполне конкретный денежный эквивалент.
Кроме того, открытость результатов играет роль. PyTorch –– это открытая экосистема, и улучшения, интегрированные в TorchTitan, теоретически доступны всем, кто работает с похожими задачами. Это не просто внутренняя оптимизация одной компании, а вклад в общую инфраструктуру для обучения больших моделей.
Насколько это применимо в реальной жизни?
Здесь стоит сделать честную оговорку. Речь идёт об экспериментах на кластере из 256 видеокарт NVIDIA B200 –– это очень дорогое и пока не самое распространённое оборудование. Большинство людей и даже небольших организаций не работают с такими конфигурациями напрямую.
Тем не менее подходы, отработанные на таких системах, со временем мигрируют в более доступные инструменты. MXFP8 уже поддерживается в нескольких других проектах –– в том числе в AMD ROCm, о котором писали применительно к тому же DeepSeek-V3. Это формат, на который индустрия явно делает ставку как на следующий шаг после FP16 и BF16.
DeepEP как открытая библиотека тоже постепенно привлекает внимание тех, кто занимается MoE-моделями –– не только в масштабах DeepSeek, но и в более скромных исследовательских проектах.
Что в итоге?
Совместная работа PyTorch и Nebius над обучением DeepSeek-V3 –– это хороший пример того, как инженерное сотрудничество в открытой экосистеме даёт измеримый результат. Никакого «прорыва» в смысле новой архитектуры или неожиданной идеи здесь нет –– но есть грамотная инженерия: взяли два проверенных инструмента, интегрировали их в существующий фреймворк и получили ускорение, которое трудно игнорировать.
Для тех, кто следит за тем, как развивается инфраструктура обучения больших моделей, это событие стоит держать в голове: именно такие итерации и определяют, насколько быстро и дёшево будут появляться следующие поколения ИИ-систем.