Когда речь заходит об обучении больших языковых моделей, одна из главных проблем – это время и ресурсы. Современные модели требуют огромного количества вычислений, а значит, любое ускорение этого процесса – пусть даже на несколько процентов – оборачивается реальной экономией: времени, электроэнергии, денег.
Команда разработчиков из PyTorch недавно сообщила о результате, который сложно назвать рядовым: обучение модели Llama 4 Scout удалось ускорить на 30,2% по сравнению со стандартным подходом, причём без потери качества. Модель сходилась к тем же результатам, что и при обычном режиме.
Дело в формате чисел
Звучит несколько неожиданно, но ключевым изменением стал не алгоритм обучения и не архитектура модели. Разница в том, как числа хранятся и обрабатываются внутри вычислений.
Нейросети во время обучения оперируют огромным количеством числовых значений. То, в каком формате эти числа представлены, напрямую влияет на скорость и точность вычислений. Стандартный формат, который сейчас используется повсеместно – BF16 (сокращение от «bfloat16»). Он обеспечивает достаточную точность и давно стал фактическим стандартом в обучении больших моделей.
Новый подход использует формат MXFP8 – это более компактное представление чисел, которое занимает меньше памяти и обрабатывается быстрее. Проще говоря: если BF16 – это как работать с числами из двух знаков после запятой, то MXFP8 – это один знак, но с умной системой масштабирования, которая позволяет не терять важную информацию.
Главная сложность с такими «укороченными» форматами – риск потери точности в ходе обучения. Модель может начать обучаться хуже, если числа округляются слишком грубо. Именно поэтому переход на MXFP8 до сих пор был нетривиальной задачей, особенно для сложных архитектур.
Llama 4 Scout – это не просто большая модель
Важный нюанс: Llama 4 Scout относится к классу так называемых MoE-моделей (Mixture of Experts, или «смесь экспертов»). Это архитектура, при которой модель не активирует все свои параметры сразу – вместо этого для каждого запроса подключается только часть «экспертов», специализированных блоков внутри модели.
Такой подход позволяет создавать очень большие модели, не платя за это пропорциональным ростом вычислительных затрат. Но он же создаёт дополнительные сложности при работе с нестандартными форматами чисел: нагрузка распределяется неравномерно, и поддерживать стабильность вычислений сложнее.
Именно поэтому применить MXFP8 к MoE-архитектуре – задача нетривиальная. Команде пришлось разработать специализированные инструменты, чтобы это сработало корректно.
Что получилось на практике
Эксперименты проводились на кластере видеокарт GB200 от NVIDIA – это одно из самых мощных решений для обучения ИИ на сегодняшний день. Результат – ускорение на 30,2% – составляет около 81% от теоретического максимума, которого можно достичь при переходе на MXFP8. То есть практика оказалась очень близкой к теории, что само по себе хороший знак.
При этом качество обучения не пострадало: кривые сходимости модели при MXFP8 совпали с результатами BF16. Проще говоря, модель научилась тому же самому – просто быстрее.
Реализация была выполнена с использованием библиотек TorchAO и TorchTitan – инструментов экосистемы PyTorch, предназначенных для оптимизации и масштабирования обучения моделей. Подробности реализации доступны в открытом доступе.
Почему это важно за пределами одного эксперимента
30% ускорения – это не просто красивая цифра в отчёте. В контексте обучения больших моделей это означает, что тот же результат можно получить примерно за три четверти обычного времени. Или – при том же бюджете – обучить модель, которая была бы недостижима раньше.
Для крупных лабораторий, обучающих модели на тысячах ускорителей неделями, подобная оптимизация меняет масштаб возможного. Но потенциально это касается и более широкого круга: по мере того как MoE-архитектуры становятся стандартом, а инструменты для их оптимизации – доступнее, такие техники могут перейти из разряда «экспериментальных» в разряд «обычных».
Отдельно стоит отметить, что речь идёт именно об обучении, а не об инференсе (то есть не о запуске уже обученной модели). Оптимизация инференса – тема отдельная и давно активно развивающаяся. Оптимизация самого процесса обучения – задача более сложная, и прогресс здесь идёт медленнее.
Открытые вопросы
Пока не вполне ясно, насколько легко этот подход переносится на другие модели и архитектуры. Llama 4 Scout – конкретная модель с конкретными характеристиками, и то, что сработало здесь, не обязательно без изменений применимо где-то ещё.
Также остаётся вопрос о доступности: NVIDIA GB200 – это оборудование уровня крупных дата-центров, не то, что стоит в среднестатистической исследовательской лаборатории. Насколько результаты воспроизводятся на менее экзотическом железе – пока открытый вопрос.
Тем не менее сам факт того, что переход на более компактный числовой формат даёт 30% ускорения при эквивалентном качестве – и это подтверждено на реальной современной архитектуре – выглядит как значимый шаг в сторону более эффективного обучения больших моделей.