DeepSeek вызвал заметный всплеск интереса к китайским опенсорс-моделям. Но когда шумиха начала спадать, возник вполне закономерный вопрос: а что дальше? Какие архитектурные решения выбирают другие команды в Китае? Насколько они разнообразны или, наоборот, идут проторенными путями?
Исследователи из Hugging Face решили посмотреть на эту картину системно – проанализировали данные о загруженных моделях, чтобы понять, какие архитектуры сейчас доминируют в китайской экосистеме и есть ли там место экспериментам.
🧱 Что вообще происходит с архитектурами
Если коротко: подавляющее большинство китайских опенсорс-моделей строится на базе декодерных архитектур. Это те самые трансформеры, которые генерируют текст последовательно, токен за токеном. GPT, LLaMA, Mistral – всё это примеры декодерных моделей.
Согласно анализу Hugging Face, около 95% китайских моделей используют именно декодерный подход. Остальные 5% распределены между энкодерами (модели типа BERT, которые хороши для понимания текста, но не для генерации) и энкодер-декодерными гибридами (вроде T5 или BART).
Такая концентрация на декодерах объясняется довольно просто: именно они показали наилучшие результаты в задачах генерации текста, а это сейчас основной фокус разработки больших языковых моделей.
Что именно популярно внутри декодерного лагеря
Среди декодерных моделей выделяются несколько явных фаворитов. На первом месте – архитектура LLaMA (и её вариации). Это неудивительно: Meta открыла исходный код, документация хорошая, сообщество большое, а результаты впечатляют.
Второе место занимает Qwen – это собственная разработка Alibaba Cloud. Qwen активно развивается, есть несколько версий с разным размером параметров, и многие китайские команды берут её за основу для своих проектов.
Также в топе: ChatGLM от Zhipu AI, Baichuan и Yi. Все они – декодерные трансформеры, каждая со своими особенностями, но общий принцип работы схож.
Зачем вообще смотреть на архитектурный выбор?
На первый взгляд может показаться, что это просто технические детали. Но на самом деле выбор архитектуры многое говорит о том, куда движется экосистема.
Если все строят модели на одной и той же базе, это упрощает обмен знаниями, переиспользование кода и инфраструктуры. С другой стороны, это может означать меньше экспериментов и меньше шансов на неожиданные прорывы.
В случае с китайской экосистемой доминирование декодеров показывает, что основной фокус – на генеративных задачах: диалоги, создание контента, ассистенты. А вот задачи чистого понимания текста (классификация, извлечение информации) отходят на второй план.
А как насчёт энкодеров и гибридов?
Энкодерные модели вроде BERT когда-то были на пике популярности. Они отлично справляются с задачами, где нужно понять смысл текста: поиск, классификация, анализ тональности. Но в эпоху больших языковых моделей, которые умеют и генерировать, и понимать, чистые энкодеры стали менее востребованы.
Энкодер-декодерные гибриды (типа T5) тоже не получили широкого распространения в китайской экосистеме. Их преимущество в том, что они могут работать с задачами типа «текст в текст»: перевод, суммаризация, перефразирование. Но в итоге оказалось, что большие декодеры справляются с этим не хуже, а иногда и лучше, особенно если их правильно обучить.
Что это значит для разработчиков?
Если вы работаете с китайскими опенсорс-моделями, скорее всего, вам предстоит иметь дело с декодерными архитектурами. Это хорошая новость: инфраструктура для них уже отлажена, библиотеки поддерживаются, документации много.
С другой стороны, если вы ищете что-то нестандартное – например, модель для специфических задач понимания текста – выбор может быть ограничен. В таких случаях, возможно, придётся либо адаптировать декодерную модель, либо обратиться к более старым энкодерным решениям.
Что дальше?
Пока китайская экосистема выглядит достаточно однородной с точки зрения архитектур. Декодеры правят бал, и это вряд ли изменится в ближайшее время – просто потому, что они хорошо работают для большинства актуальных задач.
Но индустрия не стоит на месте. Возможно, появятся новые архитектурные идеи, которые сделают гибриды или вообще что-то принципиально новое более привлекательными. Пока же картина такова: если вы смотрите на китайский опенсорс ИИ, будьте готовы к декодерам – их там много, и они разные.