SenseTime выложила в открытый доступ свою мультимодальную модель SenseNova-MARS. Если коротко – это система, которая умеет работать сразу с разными типами данных: текстом, картинками, видео и звуком. И не просто распознавать их по отдельности, а именно понимать связь между ними, находить необходимое и выстраивать логические цепочки.
Что такое мультимодальная модель
Большинство нейросетей работают с чем-то одним. GPT – с текстом, DALL-E – с картинками, Whisper – с аудио. Но в реальности мы постоянно комбинируем форматы: читаем описание к фото, смотрим видео с субтитрами, слушаем подкаст и параллельно смотрим презентацию.
Мультимодальные модели стараются работать таким же образом – понимать информацию в разных форматах одновременно. Например, ответить на вопрос «что происходит на видео» или «найди момент, где говорят о бюджете, и покажи слайд с цифрами».
SenseNova-MARS создана именно для этого. Она не просто обрабатывает разные типы данных, но и может активно искать внутри них – что особенно важно, когда информации много и она неоднородна.
Особенности модели SenseNova-MARS
В чём особенность MARS
Главная идея модели – совместить два режима работы. Первый – это поиск: модель может проанализировать большой объём данных и найти нужное. Второй – рассуждение: она может взять найденное, сопоставить его с контекстом и дать осмысленный ответ.
Обычно эти задачи решаются отдельно. Существуют поисковые системы, которые быстро находят релевантное, но не понимают смысла. И есть языковые модели, которые умеют рассуждать, но плохо справляются с большими массивами неструктурированных данных.
MARS пытается объединить оба подхода. То есть она может, например, посмотреть часовое видео, найти фрагмент, где упоминается конкретная тема, и на основе этого фрагмента ответить на вопрос – причём учитывая и то, что говорится, и то, что показано на экране.
Примеры применения мультимодальной модели
Как это может использоваться
Проще всего представить на примерах из жизни. Допустим, у вас есть архив рабочих созвонов – записи с экрана, где одновременно идёт речь, показываются слайды, графики, таблицы. Вы хотите быстро найти момент, где обсуждался конкретный показатель, и понять, что именно о нём сказали.
Или другой случай: у вас коллекция обучающих роликов, и нужно найти все места, где показывается определённое действие – например, настройка параметра в интерфейсе. Модель может найти эти моменты, даже если в звуке об этом не говорится напрямую, но это видно на экране.
Ещё один сценарий – работа с документами, где текст сопровождается диаграммами или фото. Вы задаёте вопрос, модель ищет ответ и в тексте, и в визуальной части, и формирует ответ на основе обоих источников.
Преимущества открытого кода для разработчиков
Открытый код – что это даёт?
SenseTime не просто анонсировала модель, а выложила её в открытый доступ. Это значит, что разработчики могут взять её, запустить у себя, изучить, как она устроена, адаптировать под свои задачи или даже использовать как основу для чего-то своего.
Для индустрии это важно. Мультимодальные модели пока остаются довольно закрытой темой – большинство крупных решений доступны только через API, и как именно они работают внутри, не всегда понятно. Открытые альтернативы дают больше свободы: можно экспериментировать, не завися от внешнего сервиса, и не переживать, что модель завтра изменит условия или перестанет быть доступной.
Кроме того, открытый код позволяет использовать модель локально – без отправки данных на чужие серверы. Это критично для компаний, которые работают с конфиденциальной информацией: медицинскими записями, внутренними документами, персональными данными.
Ограничения и нерешённые вопросы модели
Что пока неясно
SenseTime не раскрыла все детали. Например, неизвестно, насколько модель требовательна к ресурсам. Мультимодальные системы обычно тяжёлые – им нужна мощная видеокарта и много памяти. Если MARS окажется слишком громоздкой, её смогут использовать только крупные организации с серьёзной инфраструктурой.
Ещё непонятно, насколько хорошо модель работает на языках, кроме английского и китайского. Многие открытые модели показывают сильный перекос в сторону основных языков, и это ограничивает их применимость в других регионах.
Наконец, остаётся вопрос с точностью. Мультимодальный поиск – сложная задача, и даже лучшие системы иногда ошибаются: находят не то, путают контекст, выдают уверенный, но неверный ответ. Пока нет независимых тестов, сложно сказать, насколько надёжна MARS в реальных условиях.
Зачем это SenseTime?
Компания известна своими разработками в области компьютерного зрения и ИИ, но на фоне западных игроков вроде OpenAI или Google её продукты менее заметны за пределами Китая. Открытие кода – способ привлечь внимание разработчиков, получить обратную связь и, возможно, сформировать вокруг модели сообщество.
Кроме того, это шаг в сторону большей прозрачности. В условиях, когда многие обсуждают риски ИИ и необходимость контроля, открытые модели выглядят как более понятная и проверяемая альтернатива закрытым системам.
Что в итоге
SenseNova-MARS – это попытка сделать мультимодальный поиск и анализ более доступными. Модель умеет работать с разными типами данных, искать в них нужное и строить логические выводы – и всё это теперь можно использовать без привязки к облачному сервису.
Насколько это окажется удобным и практичным, покажет время. Но сам факт того, что такая модель стала открытой, уже расширяет возможности для тех, кто хочет экспериментировать с мультимодальными системами на своих условиях.