Опубликовано 17 февраля 2026

Qwen3.5: первая мультимодальная модель с нативным пониманием данных

Qwen3.5: первая модель с нативной мультимодальностью

Alibaba представила Qwen3.5 – первую модель в семействе Qwen3, способную работать с текстом, изображениями и аудио изначально, без дополнительных адаптеров.

Продукты 3 – 4 минуты чтения
Источник события: Alibaba Cloud 3 – 4 минуты чтения

Alibaba выпустила Qwen3.5 – первую модель в новом поколении Qwen3. Главная особенность: она изначально понимает текст, изображения и аудио. Не через отдельные модули или адаптеры, а нативно – как единое целое.

Нативная мультимодальность: что это значит

Что означает «нативная мультимодальность»

Обычно языковые модели учатся работать с текстом, а потом к ним «прикручивают» компоненты для обработки изображений или звука. Это работает, но не всегда гладко: модель может терять часть смысла при переходе между модальностями или требовать дополнительных шагов обработки.

Qwen3.5 пошла другим путём. Она с самого начала обучалась воспринимать разные типы данных как часть одного процесса. Проще говоря, для неё текст, картинка и аудио – не отдельные «языки», а естественные способы выражения информации. Это позволяет модели лучше понимать контекст, когда информация поступает в различных форматах одновременно.

Преимущества нативной мультимодальности для ИИ

Зачем это нужно

Идея в том, чтобы приблизиться к принципам работы агентов – программ, которые могут выполнять задачи в реальной среде. Агенту недостаточно просто ответить на вопрос. Ему нужно видеть интерфейс, слышать команды, читать инструкции и действовать на основе всей этой информации одновременно.

Если модель изначально устроена так, что может обрабатывать всё это вместе, она становится удобнее для таких сценариев. Например, она может анализировать скриншот приложения, слушать голосовую команду пользователя и предлагать следующий шаг – не переключаясь между режимами, а работая в едином потоке.

Возможности мультимодальной модели Qwen3.5

Что умеет Qwen3.5

Модель обучена работать с тремя основными типами данных:

  • текст – как и любая языковая модель;
  • изображения – может анализировать содержимое, описывать объекты, понимать сцены;
  • аудио – распознаёт речь и звуки, может использовать их для понимания контекста.

При этом Qwen3.5 не просто обрабатывает каждую модальность отдельно, а пытается совместить их. Например, если вы даёте ей изображение с текстом и задаёте вопрос голосом, она может использовать все три источника для формирования ответа.

Открытые веса Qwen3.5: доступность и возможности

Открытые веса и доступность

Alibaba выпустила модель с открытыми весами. Это значит, что разработчики могут скачать её, изучить, использовать в своих проектах или дообучить под конкретные задачи. Для исследователей и команд, работающих над агентами или мультимодальными приложениями, это важно: не нужно ждать API или платить за доступ – можно экспериментировать сразу.

Открытость весов также позволяет сообществу оценить, насколько хорошо работает нативная мультимодальность на практике. Это не просто маркетинговое заявление – можно проверить самостоятельно.

Будущее Qwen3.5 и развитие мультимодальных агентов

Что дальше

Qwen3.5 – первая модель в линейке Qwen3, но вряд ли последняя. Alibaba называет её шагом к «нативным мультимодальным агентам», что звучит как долгосрочная цель. Скорее всего, будут и другие версии – возможно, с большим количеством параметров, улучшенной точностью или поддержкой дополнительных модальностей.

Пока неясно, насколько хорошо модель справляется со сложными агентными задачами в реальных условиях. Нативная мультимодальность – это архитектурное преимущество, но итоговое качество зависит от данных, на которых модель обучалась, и от того, как она ведёт себя в неожиданных ситуациях.

Актуальность Qwen3.5 для разработчиков и исследователей

Для кого это актуально

Qwen3.5 может быть интересна тем, кто работает над проектами, где нужно совмещать несколько типов данных:

  • разработчики агентов и ассистентов, которые должны взаимодействовать с интерфейсами и пользователями одновременно;
  • исследователи, изучающие мультимодальные модели и их возможности;
  • команды, создающие приложения для анализа контента – например, для обработки видео, где важны и изображение, и звук, и текст.

Для обычных пользователей это пока скорее заявка на будущее. Но если тренд на нативную мультимодальность продолжится, через некоторое время мы можем увидеть ассистентов, которые понимают контекст гораздо лучше, чем сейчас, – и не потому, что их научили отдельно каждому навыку, а потому что они устроены по-другому с самого начала.

Оригинальное название: Qwen3.5: Towards Native Multimodal Agents
Дата публикации: 17 фев 2026
Alibaba Cloud www.alibabacloud.com Китайское облачное и ИИ-подразделение Alibaba, предоставляющее инфраструктуру и сервисы для бизнеса.
Предыдущая статья SWE-fficiency: как оценить не только способность ИИ найти баг, но и эффективность его исправления Следующая статья Claude Sonnet 4.6: точнее, честнее, лучше понимает контекст

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

SenseTimewww.sensetime.com 30 янв 2026

ByteDance представила новую языковую модель Dola-Seed-2.0-Preview, которая объединяет длинный контекст, расширенные аналитические способности и мультимодальность.

ByteDanceseed.bytedance.com 16 фев 2026

ИИ: События

MiniMax-M2-her: как работает голосовая модель, которая говорит на 39 языках

Технический контекст Разработка

Разбираемся в устройстве новой голосовой модели MiniMax, которая умеет одновременно понимать речь, распознавать говорящего и генерировать ответ.

MiniMaxwww.minimax.io 28 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться