В мире обучения искусственного интеллекта долгое время считалось, что чем больше задач охватывает модель в процессе подготовки, тем лучше. Логика понятна: если обучать модель на всём подряд, то получится универсальный помощник. Но, как оказалось, у этой стратегии есть серьёзный изъян, который давно мешает добиться действительно хороших результатов на практике.
Многозадачность как источник проблем
Когда модель обучается одновременно десяткам разных типов задач, она неизбежно идёт на компромисс. Проще говоря, она старается быть средней везде, вместо того чтобы быть хорошей где-то конкретно. Это явление хорошо знакомо специалистам под названием «конфликт градиентов» – когда сигналы от разных задач буквально тянут модель в разные стороны во время обучения, мешая друг другу.
Представьте, что человеку нужно одновременно научиться играть на скрипке, решать математические уравнения и варить кофе – и всё это в рамках одного урока, где оценка ставится сразу за всё. Результат предсказуем: ни в одном из направлений он не достигнет высот, зато везде будет «так себе».
Именно с этой проблемой пытается разобраться подход, получивший название DUME (от английского «Distillation Under Model Expertise» – дистилляция на основе экспертизы модели).
Идея: сначала стать экспертом, потом передать знания
Суть DUME довольно изящна. Вместо того чтобы обучать одну большую модель сразу на всём, предлагается другой путь: сначала создать узкоспециализированных «экспертов» – отдельные модели, каждая из которых натренирована на конкретном типе задач. А затем с помощью механизма дистилляции передать их знания в единую итоговую модель.
Дистилляция в данном случае – это не про уменьшение размера модели (хотя и это возможно), а про передачу способа мышления. Эксперт показывает, как он рассуждает на своей задаче, а итоговая модель учится воспроизводить эту логику. При этом она не получает смешанных, противоречивых сигналов – она учится у каждого эксперта отдельно, последовательно.
Ключевое отличие от стандартного многозадачного обучения – в том, что конфликты между задачами не просто «сглаживаются», а устраняются на уровне архитектуры процесса. Каждый эксперт специализируется максимально чисто, без помех со стороны других задач.
Что это даёт на практике
Результаты экспериментов показывают, что модели, обученные по схеме DUME, стабильно превосходят аналоги, прошедшие стандартное многозадачное обучение – причём на тех же самых данных и при сопоставимых вычислительных затратах.
Важная деталь: речь идёт не только об итоговом качестве ответов, но и об эффективности обучения. Если конкурирующие сигналы от разных задач не мешают друг другу, модель быстрее и точнее усваивает нужные паттерны. Это означает, что при одинаковом бюджете на обучение можно получить значительно лучший результат.
На ряде стандартных тестов для языковых моделей прирост оказался весьма заметным. Особенно это проявляется в задачах, где требуется последовательное рассуждение или строгое следование инструкциям – именно там многозадачное обучение традиционно «размывает» качество.
Почему это важно прямо сейчас
Контекст происходящего важен. В начале 2026 года гонка ИИ-моделей ускорилась до невиданных темпов: только за один февраль вышло более десяти крупных моделей от семи разных компаний. Каждая лаборатория стремится выжать максимум из имеющихся данных и вычислительных ресурсов. В этих условиях любой методологический сдвиг, позволяющий улучшить результат без увеличения затрат, имеет реальную практическую ценность.
DUME – именно такой сдвиг. Он не требует принципиально новой архитектуры или огромного дополнительного набора данных. Он предлагает изменить порядок и структуру обучения – и этого оказывается достаточно, чтобы получить ощутимое преимущество.
Параллельно в индустрии активно развивается интерес к специализации: всё больше команд замечают, что узкоспециализированные модели нередко превосходят универсальных гигантов на конкретных задачах. DUME как бы формализует эту интуицию и предлагает способ встроить её в процесс создания модели.
Ограничения и открытые вопросы
Подход не лишён сложностей. Создание отдельных экспертов для каждой задачи требует дополнительной организации процесса: нужно решить, как разбить задачи на группы, как обеспечить качество каждого эксперта, как управлять передачей знаний без потерь.
Кроме того, возникает вопрос: насколько хорошо итоговая модель справляется с задачами, которые находятся на стыке нескольких областей? Если эксперты обучались изолированно, способна ли дистиллированная модель комбинировать их навыки в нестандартных ситуациях – или она будет воспроизводить каждый паттерн строго в «своём» контексте?
Эти вопросы пока остаются открытыми, и ответ на них во многом определит, насколько широко DUME или похожие подходы войдут в практику.
Тем не менее сама идея – перестать смешивать всё в одном котле и дать каждой задаче своего «учителя» – звучит разумно и подкреплена конкретными результатами. Возможно, следующее поколение языковых моделей будет учиться совсем иначе, чем нынешнее.