Опубликовано 30 января 2026

SenseTime открыла исходный код SenseNova-MARS – модели для поиска и анализа данных различных типов

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

Продукты 4 – 6 минут чтения

Источник события: SenseTime 4 – 6 минут чтения

SenseTime выложила в открытый доступ свою мультимодальную модель SenseNova-MARS. Если коротко – это система, которая умеет работать сразу с разными типами данных: текстом, картинками, видео и звуком. И не просто распознавать их по отдельности, а именно понимать связь между ними, находить необходимое и выстраивать логические цепочки.

Что такое мультимодальная модель

Большинство нейросетей работают с чем-то одним. GPT – с текстом, DALL-E – с картинками, Whisper – с аудио. Но в реальности мы постоянно комбинируем форматы: читаем описание к фото, смотрим видео с субтитрами, слушаем подкаст и параллельно смотрим презентацию.

Мультимодальные модели стараются работать таким же образом – понимать информацию в разных форматах одновременно. Например, ответить на вопрос «что происходит на видео» или «найди момент, где говорят о бюджете, и покажи слайд с цифрами».

SenseNova-MARS создана именно для этого. Она не просто обрабатывает разные типы данных, но и может активно искать внутри них – что особенно важно, когда информации много и она неоднородна.

Особенности модели SenseNova-MARS

В чём особенность MARS

Главная идея модели – совместить два режима работы. Первый – это поиск: модель может проанализировать большой объём данных и найти нужное. Второй – рассуждение: она может взять найденное, сопоставить его с контекстом и дать осмысленный ответ.

Обычно эти задачи решаются отдельно. Существуют поисковые системы, которые быстро находят релевантное, но не понимают смысла. И есть языковые модели, которые умеют рассуждать, но плохо справляются с большими массивами неструктурированных данных.

MARS пытается объединить оба подхода. То есть она может, например, посмотреть часовое видео, найти фрагмент, где упоминается конкретная тема, и на основе этого фрагмента ответить на вопрос – причём учитывая и то, что говорится, и то, что показано на экране.

Примеры применения мультимодальной модели

Как это может использоваться

Проще всего представить на примерах из жизни. Допустим, у вас есть архив рабочих созвонов – записи с экрана, где одновременно идёт речь, показываются слайды, графики, таблицы. Вы хотите быстро найти момент, где обсуждался конкретный показатель, и понять, что именно о нём сказали.

Или другой случай: у вас коллекция обучающих роликов, и нужно найти все места, где показывается определённое действие – например, настройка параметра в интерфейсе. Модель может найти эти моменты, даже если в звуке об этом не говорится напрямую, но это видно на экране.

Ещё один сценарий – работа с документами, где текст сопровождается диаграммами или фото. Вы задаёте вопрос, модель ищет ответ и в тексте, и в визуальной части, и формирует ответ на основе обоих источников.

Преимущества открытого кода для разработчиков

Открытый код – что это даёт?

SenseTime не просто анонсировала модель, а выложила её в открытый доступ. Это значит, что разработчики могут взять её, запустить у себя, изучить, как она устроена, адаптировать под свои задачи или даже использовать как основу для чего-то своего.

Для индустрии это важно. Мультимодальные модели пока остаются довольно закрытой темой – большинство крупных решений доступны только через API, и как именно они работают внутри, не всегда понятно. Открытые альтернативы дают больше свободы: можно экспериментировать, не завися от внешнего сервиса, и не переживать, что модель завтра изменит условия или перестанет быть доступной.

Кроме того, открытый код позволяет использовать модель локально – без отправки данных на чужие серверы. Это критично для компаний, которые работают с конфиденциальной информацией: медицинскими записями, внутренними документами, персональными данными.

Ограничения и нерешённые вопросы модели

Что пока неясно

SenseTime не раскрыла все детали. Например, неизвестно, насколько модель требовательна к ресурсам. Мультимодальные системы обычно тяжёлые – им нужна мощная видеокарта и много памяти. Если MARS окажется слишком громоздкой, её смогут использовать только крупные организации с серьёзной инфраструктурой.

Ещё непонятно, насколько хорошо модель работает на языках, кроме английского и китайского. Многие открытые модели показывают сильный перекос в сторону основных языков, и это ограничивает их применимость в других регионах.

Наконец, остаётся вопрос с точностью. Мультимодальный поиск – сложная задача, и даже лучшие системы иногда ошибаются: находят не то, путают контекст, выдают уверенный, но неверный ответ. Пока нет независимых тестов, сложно сказать, насколько надёжна MARS в реальных условиях.

Зачем это SenseTime?

Компания известна своими разработками в области компьютерного зрения и ИИ, но на фоне западных игроков вроде OpenAI или Google её продукты менее заметны за пределами Китая. Открытие кода – способ привлечь внимание разработчиков, получить обратную связь и, возможно, сформировать вокруг модели сообщество.

Кроме того, это шаг в сторону большей прозрачности. В условиях, когда многие обсуждают риски ИИ и необходимость контроля, открытые модели выглядят как более понятная и проверяемая альтернатива закрытым системам.

Что в итоге

SenseNova-MARS – это попытка сделать мультимодальный поиск и анализ более доступными. Модель умеет работать с разными типами данных, искать в них нужное и строить логические выводы – и всё это теперь можно использовать без привязки к облачному сервису.

Насколько это окажется удобным и практичным, покажет время. Но сам факт того, что такая модель стала открытой, уже расширяет возможности для тех, кто хочет экспериментировать с мультимодальными системами на своих условиях.

#событие #прикладной разбор #нейросети #развитие ии #инженерия #открытые технологии #инструменты разработки #мультимодальные модели

Ссылка на публикацию: https://www.sensetime.com/en/news-detail/51170506?categoryId=1072

Оригинальное название: SenseTime Open Sources SenseNova-MARS A Breakthrough in Multimodal Search and Reasoning

Дата публикации: 30 янв 2026

SenseTime www.sensetime.com Крупная китайская ИИ-компания, специализирующаяся на компьютерном зрении и интеллектуальных системах.

Предыдущая статья Как специализированные чипы меняют работу ИИ Следующая статья Как Elastic внедрила ИИ в техподдержку, сохранив участие человека

SenseTime открыла исходный код SenseNova-MARS – модели для поиска и анализа данных различных типов

Что такое мультимодальная модель

Особенности модели SenseNova-MARS

Примеры применения мультимодальной модели

Преимущества открытого кода для разработчиков

Ограничения и нерешённые вопросы модели

Зачем это SenseTime?

Что в итоге

Связанные публикации

Mistral выпустила Vibe 2.0 – модель, которая понимает изображения и видео

NVIDIA выпустила три новые модели для видеогенерации с открытым исходным кодом

Обновление Play: дубляж с помощью ИИ и улучшенный интерфейс

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации