Опубликовано 30 января 2026

SenseTime открыла исходный код SenseNova-MARS – модели для поиска и анализа данных различных типов

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

Продукты 4 – 6 минут чтения
Источник события: SenseTime 4 – 6 минут чтения

SenseTime выложила в открытый доступ свою мультимодальную модель SenseNova-MARS. Если коротко – это система, которая умеет работать сразу с разными типами данных: текстом, картинками, видео и звуком. И не просто распознавать их по отдельности, а именно понимать связь между ними, находить необходимое и выстраивать логические цепочки.

Что такое мультимодальная модель

Большинство нейросетей работают с чем-то одним. GPT – с текстом, DALL-E – с картинками, Whisper – с аудио. Но в реальности мы постоянно комбинируем форматы: читаем описание к фото, смотрим видео с субтитрами, слушаем подкаст и параллельно смотрим презентацию.

Мультимодальные модели стараются работать таким же образом – понимать информацию в разных форматах одновременно. Например, ответить на вопрос «что происходит на видео» или «найди момент, где говорят о бюджете, и покажи слайд с цифрами».

SenseNova-MARS создана именно для этого. Она не просто обрабатывает разные типы данных, но и может активно искать внутри них – что особенно важно, когда информации много и она неоднородна.

Особенности модели SenseNova-MARS

В чём особенность MARS

Главная идея модели – совместить два режима работы. Первый – это поиск: модель может проанализировать большой объём данных и найти нужное. Второй – рассуждение: она может взять найденное, сопоставить его с контекстом и дать осмысленный ответ.

Обычно эти задачи решаются отдельно. Существуют поисковые системы, которые быстро находят релевантное, но не понимают смысла. И есть языковые модели, которые умеют рассуждать, но плохо справляются с большими массивами неструктурированных данных.

MARS пытается объединить оба подхода. То есть она может, например, посмотреть часовое видео, найти фрагмент, где упоминается конкретная тема, и на основе этого фрагмента ответить на вопрос – причём учитывая и то, что говорится, и то, что показано на экране.

Примеры применения мультимодальной модели

Как это может использоваться

Проще всего представить на примерах из жизни. Допустим, у вас есть архив рабочих созвонов – записи с экрана, где одновременно идёт речь, показываются слайды, графики, таблицы. Вы хотите быстро найти момент, где обсуждался конкретный показатель, и понять, что именно о нём сказали.

Или другой случай: у вас коллекция обучающих роликов, и нужно найти все места, где показывается определённое действие – например, настройка параметра в интерфейсе. Модель может найти эти моменты, даже если в звуке об этом не говорится напрямую, но это видно на экране.

Ещё один сценарий – работа с документами, где текст сопровождается диаграммами или фото. Вы задаёте вопрос, модель ищет ответ и в тексте, и в визуальной части, и формирует ответ на основе обоих источников.

Преимущества открытого кода для разработчиков

Открытый код – что это даёт?

SenseTime не просто анонсировала модель, а выложила её в открытый доступ. Это значит, что разработчики могут взять её, запустить у себя, изучить, как она устроена, адаптировать под свои задачи или даже использовать как основу для чего-то своего.

Для индустрии это важно. Мультимодальные модели пока остаются довольно закрытой темой – большинство крупных решений доступны только через API, и как именно они работают внутри, не всегда понятно. Открытые альтернативы дают больше свободы: можно экспериментировать, не завися от внешнего сервиса, и не переживать, что модель завтра изменит условия или перестанет быть доступной.

Кроме того, открытый код позволяет использовать модель локально – без отправки данных на чужие серверы. Это критично для компаний, которые работают с конфиденциальной информацией: медицинскими записями, внутренними документами, персональными данными.

Ограничения и нерешённые вопросы модели

Что пока неясно

SenseTime не раскрыла все детали. Например, неизвестно, насколько модель требовательна к ресурсам. Мультимодальные системы обычно тяжёлые – им нужна мощная видеокарта и много памяти. Если MARS окажется слишком громоздкой, её смогут использовать только крупные организации с серьёзной инфраструктурой.

Ещё непонятно, насколько хорошо модель работает на языках, кроме английского и китайского. Многие открытые модели показывают сильный перекос в сторону основных языков, и это ограничивает их применимость в других регионах.

Наконец, остаётся вопрос с точностью. Мультимодальный поиск – сложная задача, и даже лучшие системы иногда ошибаются: находят не то, путают контекст, выдают уверенный, но неверный ответ. Пока нет независимых тестов, сложно сказать, насколько надёжна MARS в реальных условиях.

Зачем это SenseTime?

Компания известна своими разработками в области компьютерного зрения и ИИ, но на фоне западных игроков вроде OpenAI или Google её продукты менее заметны за пределами Китая. Открытие кода – способ привлечь внимание разработчиков, получить обратную связь и, возможно, сформировать вокруг модели сообщество.

Кроме того, это шаг в сторону большей прозрачности. В условиях, когда многие обсуждают риски ИИ и необходимость контроля, открытые модели выглядят как более понятная и проверяемая альтернатива закрытым системам.

Что в итоге

SenseNova-MARS – это попытка сделать мультимодальный поиск и анализ более доступными. Модель умеет работать с разными типами данных, искать в них нужное и строить логические выводы – и всё это теперь можно использовать без привязки к облачному сервису.

Насколько это окажется удобным и практичным, покажет время. Но сам факт того, что такая модель стала открытой, уже расширяет возможности для тех, кто хочет экспериментировать с мультимодальными системами на своих условиях.

Оригинальное название: SenseTime Open Sources SenseNova-MARS A Breakthrough in Multimodal Search and Reasoning
Дата публикации: 30 янв 2026
SenseTime www.sensetime.com Крупная китайская ИИ-компания, специализирующаяся на компьютерном зрении и интеллектуальных системах.
Предыдущая статья Как специализированные чипы меняют работу ИИ Следующая статья Как Elastic внедрила ИИ в техподдержку, сохранив участие человека

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться