Опубликовано 11 февраля 2026

Unsloth ускорил обучение MoE-моделей в 12 раз и увеличил объем контекста

Новые ядра и математические оптимизации Unsloth сокращают требования к памяти на 35%, увеличивают скорость обучения в 12 раз и позволяют работать с контекстом, который в 6 раз длиннее исходного.

Разработка / Технический контекст 4 – 6 минут чтения
Источник события: Unsloth 4 – 6 минут чтения

Ускорение обучения нейросетей с архитектурой Mixture of Experts

Не все экспертные модели одинаково полезны... но теперь они одинаково быстрые

Mixture of Experts (MoE) – архитектура, ставшая популярной благодаря способности наращивать «интеллект» модели без радикального роста вычислительных затрат. Проще говоря: вместо того чтобы прогонять каждый запрос через всю огромную нейросеть, система выбирает несколько «экспертов» из большого пула и активирует только их. Звучит элегантно, но есть проблема: до недавнего времени обучение таких моделей было крайне медленным и требовало огромного объема памяти.

Команда Unsloth выпустила набор оптимизаций, которые ускоряют обучение MoE-моделей примерно в 12 раз по сравнению с классическими подходами, сокращают требования к видеопамяти более чем на треть и позволяют работать с контекстом в шесть раз длиннее. Всё это – без потери точности.

Основные проблемы и ограничения при обучении MoE моделей

Почему MoE до сих пор было неудобно обучать

Представьте себе модель, у которой сотня экспертов – отдельных нейронных сетей, каждая со своими весами. Когда поступает токен, система решает, какие из этих экспертов активировать (обычно 6–8 штук). Остальные остаются в режиме ожидания.

Проблема заключалась в том, что веса экспертов хранились как список отдельных слоев. Чтобы обработать данные, приходилось проходить по этому списку циклом: сначала один эксперт, потом второй, третий. Это было очень медленно.

Недавно в PyTorch добавили функцию grouped_mm – способ выполнять несколько матричных умножений за раз вместо последовательного прохода. Библиотека Transformers версии 5 начала использовать эту функцию, что дало шестикратное ускорение. Unsloth пошел дальше и написал собственные ядра на Triton, которые увеличивают скорость еще в два раза и сокращают потребление памяти более чем на треть.

Технология Split LoRA для оптимизации памяти и скорости обучения

Как это работает: Split LoRA вместо материализации

Обычно при обучении MoE с помощью LoRA (Low-Rank Adaptation – метод дообучения, добавляющий небольшие адаптеры к модели вместо обновления всех весов) происходит следующее: система сначала объединяет адаптер с базовыми весами, а затем прогоняет данные через эту объединенную версию. Проблема в том, что такое объединение требует хранения промежуточной матрицы для каждого эксперта. Если экспертов 128 (как в Qwen3-30B), это мгновенно исчерпывает память.

Unsloth использует иной порядок операций. Вместо того чтобы сначала собирать полный вес, а потом применять его к данным, система сначала применяет LoRA-адаптер к данным, а затем умножает результат на вторую часть адаптера. Математически результат не меняется (матричное умножение ассоциативно), но порядок операций позволяет обходиться без хранения громоздких промежуточных матриц.

Это экономит колоссальное количество памяти и времени. Для Qwen3-30B-A3B такой подход позволяет работать с контекстом до 32 тысяч токенов. Для gpt-oss – еще больше.

Результаты тестов производительности на различных видеокартах NVIDIA

Бенчмарки: от «железа» для дата-центров до пользовательских GPU

На NVIDIA B200 обучение gpt-oss с контекстом в 8192 токена стало быстрее в 7 раз по сравнению с Transformers v5, а потребление памяти сократилось на 36%. На контексте в 16K токенов Transformers v5 выдает ошибку нехватки памяти, в то время как Unsloth продолжает работать.

Qwen3-30B-A3B на B200 показывает ускорение примерно в 1,7 раза при экономии памяти в 35%. На H100 зафиксирован рост скорости в 1,77 раза, при этом на контексте в 8K токенов Unsloth использует меньше памяти, чем базовая версия при 4K.

GLM 4.7 Flash – модель с 64 экспертами и одним общим (конфигурация в стиле DeepSeek). На RTX PRO 6000 Unsloth обеспечивает ускорение в 2,1 раза и экономию памяти на 15%.

Важно: все эти оптимизации работают не только на серверных GPU вроде H100 или B200, но и на пользовательских видеокартах уровня RTX 3090 или старых A100. Поддержка начинается с архитектуры NVIDIA T4.

Механизм автоматического выбора метода ускорения в Unsloth

Автоматический выбор бэкенда

Unsloth самостоятельно выбирает метод ускорения в зависимости от вашего оборудования. Если используется H100 или более новая карта – включается grouped_mm, оптимизированная функция PyTorch. Если установлена A100 или старые версии PyTorch – автоматически активируются собственные Triton-ядра Unsloth, которые на A100 работают в 2,5 раза быстрее grouped_mm. Если же оборудование не поддерживает эти функции, используется базовая версия PyTorch, но даже в этом случае сохраняются все оптимизации по памяти.

Режимы можно переключать вручную через переменную окружения UNSLOTH_MOE_BACKEND, но по умолчанию система сама выбирает оптимальный вариант.

Список поддерживаемых MoE моделей и семейств нейросетей

Какие модели поддерживаются

Обновление затрагивает семейства Qwen3 (включая версии Thinking, Instruct, VL, Coder), gpt-oss (20B, 120B, safeguard), GLM (4.5, 4.6, 4.6-Air, 4.7, 4.7-Flash) и DeepSeek (V3, R1, V3.1, V3.2). Unsloth также должен поддерживать и другие MoE-модели, даже если они не указаны в документации.

Обзор дополнительных улучшений и поддержка новых функций в Unsloth

Бонус: другие обновления

Вместе с ускорением MoE команда представила еще несколько улучшений:

  • Gemma-3 теперь использует Flex-Attention по умолчанию, что снижает сложность потребления памяти с O(N²) до O(N) и ускоряет обучение более чем в три раза. На контексте в 8K экономия составляет 24,8 ГБ, а на 16K модель перестает выдавать ошибку нехватки памяти.
  • Дообучение визуальных моделей теперь поддерживает смешанные данные: можно подавать текст и изображения вперемежку.
  • Windows теперь поддерживается официально, без необходимости использования WSL.
  • Совместимость с trl==0.27.1 и transformers==5.1.0 доведена до 80% (для всех 120 ноутбуков Unsloth; ранее было 30%). Полная поддержка ожидается в ближайшие дни.

Преимущества использования оптимизаций MoE для исследователей и разработчиков

Зачем это нужно

MoE-модели позволяют создавать масштабные нейросети без пропорционального роста вычислительных затрат. Однако до недавнего времени процесс их обучения оставался дорогим и медленным. Новые оптимизации Unsloth делают MoE доступнее: теперь дообучать модели уровня 30B параметров можно на одной пользовательской GPU, а не только на кластерах. Это значительно расширяет круг исследователей, способных экспериментировать с такими архитектурами.

Если вкратце: быстрее обучать, тратить меньше памяти и поддерживать длинный контекст – и всё это без потери качества работы модели.

Ссылка на публикацию: https://unsloth.ai/docs/new/faster-moe
Оригинальное название: Faster MoE Training
Дата публикации: 11 фев 2026
Unsloth unsloth.ai Американский проект, оптимизирующий обучение и донастройку языковых моделей.
Предыдущая статья Индийская компания Sarvam представила голосового ассистента Arya с поддержкой 10 языков Следующая статья Semantic Router: как научить систему понимать намерения пользователя

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Инженеры Mistral AI рассказали, как выслеживали утечку памяти в популярной системе для запуска языковых моделей vLLM и что им помешало.

Mistral AImistral.ai 21 янв 2026

ИИ: События

Как масштабировать vLLM и не допустить ошибок нехватки памяти

Технический контекст Инфраструктура

Команда AI21 Labs поделилась опытом оптимизации vLLM – популярного инструмента для развертывания языковых моделей, который при масштабировании часто сталкивается с критическими ошибками из-за дефицита оперативной памяти.

AI21 Labswww.ai21.com 6 фев 2026

ИИ: События

AMD представила метод разделения GPU для параллельного запуска нескольких LLM

Технический контекст Инфраструктура

AMD раскрыла метод разделения одного графического процессора на изолированные области для одновременной работы различных моделей – без потерь в безопасности и производительности.

AMDwww.amd.com 23 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться