Опубликовано 26 марта 2026

Ускорение DeepSeek-V3 до 41%: технологии PyTorch и Nebius

DeepSeek-V3 стал обучаться на 41% быстрее: что за этим стоит?

Команды PyTorch и Nebius объединили усилия, чтобы ускорить предобучение DeepSeek-V3 на современных GPU, и результат превзошёл ожидания.

Инфраструктура / Технический контекст 4 – 6 минут чтения
Источник события: PyTorch 4 – 6 минут чтения

Большие языковые модели не появляются из ниоткуда. За каждым релизом стоят недели или месяцы вычислений на сотнях мощных видеокарт. Одна из постоянных задач в этой сфере –– ускорить обучение, сделать его дешевле и с меньшими ограничениями по памяти. Именно об этом –– свежий результат совместной работы команд PyTorch и Nebius.

Что произошло

Что произошло?

Инженеры из обеих команд запустили предобучение модели DeepSeek-V3 на кластере из 256 видеокарт NVIDIA B200. DeepSeek-V3 –– это так называемая MoE-модель (Mixture of Experts, или «смесь экспертов»): она содержит 671 миллиард параметров, но в каждый момент времени активна лишь их часть. Это позволяет добиться высокой производительности при относительно умеренных вычислительных затратах –– по крайней мере, по меркам таких масштабов.

Результат: предобучение ускорилось до 41% по сравнению с более ранними подходами. Если коротко –– та же работа, но заметно быстрее.

Благодаря чему это удалось

Благодаря чему это удалось?

Здесь задействованы два независимых улучшения, которые можно применять по отдельности, а вместе они дают суммарный эффект.

Новый формат чисел: MXFP8

Современные нейросети оперируют огромными массивами чисел. От того, в каком формате эти числа хранятся и обрабатываются, напрямую зависит скорость и объём занятой памяти. Чем «легче» формат –– тем быстрее вычисления, но тем выше риск потерять в точности.

MXFP8 –– это один из таких «лёгких» форматов. Его особенность в том, что он умеет точнее контролировать, как именно хранятся числа: небольшие группы значений масштабируются независимо друг от друга. Проще говоря, это позволяет быть одновременно компактным и достаточно точным –– что раньше было трудно совместить.

Применение MXFP8 в процессе обучения DeepSeek-V3 позволило значительно ускорить вычисления без ощутимой потери в качестве финальной модели. При этом важно, что речь идёт именно о предобучении –– самом дорогостоящем этапе, когда модель учится «с нуля» на огромных объёмах текста.

DeepEP: более умная передача данных между GPU

Когда сотни видеокарт работают вместе, между ними постоянно передаются данные. В MoE-моделях это особенно заметно: разные «эксперты» живут на разных GPU, и при каждом шаге обучения нужно доставить нужные данные к нужному эксперту. Это создаёт серьёзную нагрузку на сетевую инфраструктуру.

DeepEP –– это библиотека для оптимизации именно такой коммуникации. Она была разработана командой DeepSeek и ориентирована специально на MoE-архитектуры. Интеграция DeepEP в обучающий фреймворк позволила сократить «простои», когда GPU ждут данных, и тем самым лучше утилизировать аппаратные ресурсы.

Что такое TorchTitan

При чём здесь TorchTitan?

TorchTitan –– это обучающий фреймворк от команды PyTorch. Его можно описать как набор инструментов и подходов для того, чтобы запускать масштабное обучение больших моделей надёжно и гибко. Именно в него была встроена поддержка как MXFP8, так и DeepEP –– и именно на его базе проводились все эксперименты.

Тестировались две конфигурации: упрощённая версия DeepSeek-V3 на 16 миллиардов параметров и полноразмерная на 671 миллиард. Оба варианта показали существенное ускорение, а качество обучения при этом не пострадало.

Почему это важно

Почему это важно шире, чем кажется?

На первый взгляд, это звучит как сугубо техническая история. Но за ней стоит нечто более существенное.

Обучение таких моделей, как DeepSeek-V3, –– это дорого. Очень дорого. Каждый процент ускорения здесь –– это не просто «быстрее», это реальная экономия ресурсов: меньше времени на GPU-кластерах, меньше электроэнергии, меньше денег. При масштабах в сотни видеокарт и неделях вычислений 41% –– это цифра, которая имеет вполне конкретный денежный эквивалент.

Кроме того, открытость результатов играет роль. PyTorch –– это открытая экосистема, и улучшения, интегрированные в TorchTitan, теоретически доступны всем, кто работает с похожими задачами. Это не просто внутренняя оптимизация одной компании, а вклад в общую инфраструктуру для обучения больших моделей.

Применимость в реальной жизни

Насколько это применимо в реальной жизни?

Здесь стоит сделать честную оговорку. Речь идёт об экспериментах на кластере из 256 видеокарт NVIDIA B200 –– это очень дорогое и пока не самое распространённое оборудование. Большинство людей и даже небольших организаций не работают с такими конфигурациями напрямую.

Тем не менее подходы, отработанные на таких системах, со временем мигрируют в более доступные инструменты. MXFP8 уже поддерживается в нескольких других проектах –– в том числе в AMD ROCm, о котором писали применительно к тому же DeepSeek-V3. Это формат, на который индустрия явно делает ставку как на следующий шаг после FP16 и BF16.

DeepEP как открытая библиотека тоже постепенно привлекает внимание тех, кто занимается MoE-моделями –– не только в масштабах DeepSeek, но и в более скромных исследовательских проектах.

Что в итоге

Что в итоге?

Совместная работа PyTorch и Nebius над обучением DeepSeek-V3 –– это хороший пример того, как инженерное сотрудничество в открытой экосистеме даёт измеримый результат. Никакого «прорыва» в смысле новой архитектуры или неожиданной идеи здесь нет –– но есть грамотная инженерия: взяли два проверенных инструмента, интегрировали их в существующий фреймворк и получили ускорение, которое трудно игнорировать.

Для тех, кто следит за тем, как развивается инфраструктура обучения больших моделей, это событие стоит держать в голове: именно такие итерации и определяют, насколько быстро и дёшево будут появляться следующие поколения ИИ-систем.

Оригинальное название: Enabling Up to 41% Faster Pre-training: MXFP8 and DeepEP for DeepSeek-V3 on B200 with TorchTitan
Дата публикации: 25 мар 2026
PyTorch pytorch.org Международный проект и открытая платформа глубокого обучения, активно поддерживаемая исследовательским и разработческим сообществом для создания и внедрения ИИ-моделей.
Предыдущая статья Mistral выпустила голосовую модель Voxtral TTS – быстрый синтез речи с открытыми весами Следующая статья Как Cursor учит свой ИИ на живых пользователях – и обновляет его несколько раз в день

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

ИИ: События

Perplexity показала, как обучать модели с триллионом параметров на базе AWS

Технический контекст Инфраструктура

Команда Perplexity адаптировала фреймворк для обучения сверхбольших нейросетей под облачную инфраструктуру Amazon. Это позволило устранить жесткую зависимость от проприетарного оборудования NVIDIA и использовать стандартные сетевые решения.

Perplexity AIresearch.perplexity.ai 7 фев 2026

Исследователи предложили способ распределить обработку сверхдлинных текстов между несколькими GPU, чтобы модели можно было обучать на контекстах до миллиона токенов.

Hugging Facehuggingface.co 10 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться