Опубликовано

SenseTime открыла исходный код SenseNova-MARS – модели для поиска и анализа данных различных типов

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

Продукты
Источник события: SenseTime Время чтения: 4 – 6 минут

SenseTime выложила в открытый доступ свою мультимодальную модель SenseNova-MARS. Если коротко – это система, которая умеет работать сразу с разными типами данных: текстом, картинками, видео и звуком. И не просто распознавать их по отдельности, а именно понимать связь между ними, находить необходимое и выстраивать логические цепочки.

Что такое мультимодальная модель

Большинство нейросетей работают с чем-то одним. GPT – с текстом, DALL-E – с картинками, Whisper – с аудио. Но в реальности мы постоянно комбинируем форматы: читаем описание к фото, смотрим видео с субтитрами, слушаем подкаст и параллельно смотрим презентацию.

Мультимодальные модели стараются работать таким же образом – понимать информацию в разных форматах одновременно. Например, ответить на вопрос «что происходит на видео» или «найди момент, где говорят о бюджете, и покажи слайд с цифрами».

SenseNova-MARS создана именно для этого. Она не просто обрабатывает разные типы данных, но и может активно искать внутри них – что особенно важно, когда информации много и она неоднородна.

Особенности модели SenseNova-MARS

В чём особенность MARS

Главная идея модели – совместить два режима работы. Первый – это поиск: модель может проанализировать большой объём данных и найти нужное. Второй – рассуждение: она может взять найденное, сопоставить его с контекстом и дать осмысленный ответ.

Обычно эти задачи решаются отдельно. Существуют поисковые системы, которые быстро находят релевантное, но не понимают смысла. И есть языковые модели, которые умеют рассуждать, но плохо справляются с большими массивами неструктурированных данных.

MARS пытается объединить оба подхода. То есть она может, например, посмотреть часовое видео, найти фрагмент, где упоминается конкретная тема, и на основе этого фрагмента ответить на вопрос – причём учитывая и то, что говорится, и то, что показано на экране.

Примеры применения мультимодальной модели

Как это может использоваться

Проще всего представить на примерах из жизни. Допустим, у вас есть архив рабочих созвонов – записи с экрана, где одновременно идёт речь, показываются слайды, графики, таблицы. Вы хотите быстро найти момент, где обсуждался конкретный показатель, и понять, что именно о нём сказали.

Или другой случай: у вас коллекция обучающих роликов, и нужно найти все места, где показывается определённое действие – например, настройка параметра в интерфейсе. Модель может найти эти моменты, даже если в звуке об этом не говорится напрямую, но это видно на экране.

Ещё один сценарий – работа с документами, где текст сопровождается диаграммами или фото. Вы задаёте вопрос, модель ищет ответ и в тексте, и в визуальной части, и формирует ответ на основе обоих источников.

Преимущества открытого кода для разработчиков

Открытый код – что это даёт?

SenseTime не просто анонсировала модель, а выложила её в открытый доступ. Это значит, что разработчики могут взять её, запустить у себя, изучить, как она устроена, адаптировать под свои задачи или даже использовать как основу для чего-то своего.

Для индустрии это важно. Мультимодальные модели пока остаются довольно закрытой темой – большинство крупных решений доступны только через API, и как именно они работают внутри, не всегда понятно. Открытые альтернативы дают больше свободы: можно экспериментировать, не завися от внешнего сервиса, и не переживать, что модель завтра изменит условия или перестанет быть доступной.

Кроме того, открытый код позволяет использовать модель локально – без отправки данных на чужие серверы. Это критично для компаний, которые работают с конфиденциальной информацией: медицинскими записями, внутренними документами, персональными данными.

Ограничения и нерешённые вопросы модели

Что пока неясно

SenseTime не раскрыла все детали. Например, неизвестно, насколько модель требовательна к ресурсам. Мультимодальные системы обычно тяжёлые – им нужна мощная видеокарта и много памяти. Если MARS окажется слишком громоздкой, её смогут использовать только крупные организации с серьёзной инфраструктурой.

Ещё непонятно, насколько хорошо модель работает на языках, кроме английского и китайского. Многие открытые модели показывают сильный перекос в сторону основных языков, и это ограничивает их применимость в других регионах.

Наконец, остаётся вопрос с точностью. Мультимодальный поиск – сложная задача, и даже лучшие системы иногда ошибаются: находят не то, путают контекст, выдают уверенный, но неверный ответ. Пока нет независимых тестов, сложно сказать, насколько надёжна MARS в реальных условиях.

Зачем это SenseTime?

Компания известна своими разработками в области компьютерного зрения и ИИ, но на фоне западных игроков вроде OpenAI или Google её продукты менее заметны за пределами Китая. Открытие кода – способ привлечь внимание разработчиков, получить обратную связь и, возможно, сформировать вокруг модели сообщество.

Кроме того, это шаг в сторону большей прозрачности. В условиях, когда многие обсуждают риски ИИ и необходимость контроля, открытые модели выглядят как более понятная и проверяемая альтернатива закрытым системам.

Что в итоге

SenseNova-MARS – это попытка сделать мультимодальный поиск и анализ более доступными. Модель умеет работать с разными типами данных, искать в них нужное и строить логические выводы – и всё это теперь можно использовать без привязки к облачному сервису.

Насколько это окажется удобным и практичным, покажет время. Но сам факт того, что такая модель стала открытой, уже расширяет возможности для тех, кто хочет экспериментировать с мультимодальными системами на своих условиях.

Оригинальное название: SenseTime Open Sources SenseNova-MARS A Breakthrough in Multimodal Search and Reasoning
Дата публикации: 30 янв 2026
SenseTimewww.sensetime.com Крупная китайская ИИ-компания, специализирующаяся на компьютерном зрении и интеллектуальных системах.
Предыдущая статья Как специализированные чипы меняют работу ИИ Следующая статья Как Elastic внедрила ИИ в техподдержку, сохранив участие человека

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

ИИ: События

Вам может быть интересно

Перейти ко всем событиям

Другие события из мира искусственного интеллекта, которые помогают увидеть общую картину и понять, как меняется направление развития технологий.

Компания AMD представила Micro-World – первые модели мира (world models) с открытым исходным кодом. Они способны генерировать видео с учетом действий пользователя в реальном времени и оптимизированы для работы на графических процессорах компании.

Hugging Face запустил Community Evals – платформу, на которой разработчики могут самостоятельно тестировать языковые модели и делиться результатами, не полагаясь на закрытые рейтинги.

Команда Perplexity AI продемонстрировала, как технология прямой передачи данных между серверами помогает языковым моделям работать быстрее и эффективнее, устраняя «узкие места» в сетевой инфраструктуре.

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться