Опубликовано 11 марта 2026

Moondream научилась выделять объекты на фото точнее и на 40% быстрее

Moondream обновила функцию сегментации: теперь модель точнее выделяет объекты по сложным описаниям и работает заметно быстрее предыдущей версии.

Продукты 3 – 4 минуты чтения

Источник события: Moondream 3 – 4 минуты чтения

Представьте, что вам нужно выделить на фотографии не просто «человека», а «человека в синей рубашке, стоящего у левого поручня моста и смотрящего вниз». Большинство моделей компьютерного зрения с такой задачей не справятся – они умеют работать с простыми категориями, но теряются, когда описание становится сложнее. Moondream занимается именно этим: понимает развёрнутые словесные описания и точно выделяет нужный объект на изображении. 10 марта 2026 года команда выпустила обновлённую версию этой функции.

Сегментация изображений по текстовому описанию и сфера её применения

Что такое сегментация и зачем она нужна

Сегментация – это когда модель не просто находит объект на картинке, а буквально «обводит» его по контуру. Проще говоря, она создаёт маску: точную форму объекта, которую можно использовать для редактирования фото, анализа сцены, автоматизации разметки данных и десятков других задач.

Особенность Moondream в том, что она работает с так называемыми referring expressions – уточняющими выражениями на естественном языке. Не «найди машину», а «найди белый Porsche 911 на переднем плане». Или «бельё на полу». Или «Уолли под номером 25317». Это принципиально сложнее, чем просто распознать категорию объекта.

Ключевые улучшения и результаты тестов новой версии Moondream

Что изменилось в обновлении

Новая версия модели получила улучшения сразу по трём направлениям.

Качество масок стало выше. Moondream изначально строит маски в формате SVG – это векторная графика, которая сохраняет чёткость при любом масштабе. В отличие от пиксельных масок, которые «размываются» при увеличении, SVG остаётся точным. Новая версия ещё аккуратнее обводит контуры объектов.

Скорость выросла на 40%. Это существенно для тех, кто обрабатывает большое количество изображений или создает приложения, где критична минимальная задержка.

Показатели на стандартных тестах улучшились. Для оценки качества сегментации используют специальные наборы данных – RefCOCO, RefCOCO+ и RefCOCOg. Они проверяют, насколько точно модель понимает описания разного типа: с указанием на положение объекта, с описанием его внешности, с длинными и сложными фразами. По всем этим тестам новая версия показала результаты лучше предыдущей. Причём предыдущим эталоном тоже был Moondream – то есть команда побила собственный рекорд.

Сравнение Moondream с альтернативными моделями сегментации

А что насчёт конкурентов?

В сентябре 2025 года, когда Moondream только запустила функцию сегментации в составе Moondream 3 Preview, она сразу показала лучшие результаты на бенчмарках. С тех пор вышло несколько других моделей с похожими возможностями, но Moondream, по данным команды, сохраняет лидерство.

Один из характерных примеров сравнения – с SAM 3 от Meta. SAM 3 умеет сегментировать объекты по простым запросам вроде «машина» или «человек», но когда нужно обработать более сложное описание – например, «человек, касающийся двери», – его одного недостаточно. Приходится подключать дополнительную большую языковую модель, что увеличивает время и стоимость обработки. Moondream справляется с такими запросами без посредников.

Вообще, в этой области есть характерная развилка: мощные мультимодальные модели понимают сложные описания, но работают медленно и дорого. Лёгкие модели быстрые, но плохо справляются со всем, что сложнее простого существительного. Moondream позиционирует себя как решение, которое отвечает обоим требованиям одновременно.

Доступность обновления и варианты использования модели

Кому это полезно прямо сейчас

Обновление уже доступно в Moondream Cloud. Если вы уже используете сегментацию через этот сервис – улучшения применятся автоматически, ничего дополнительно настраивать не нужно.

Для тех, кто предпочитает запускать модели локально, команда анонсировала выход версии для локального запуска в ближайшие дни после публикации обновления. Вместе с ней планируется выпуск технического описания для тех, кто хочет разобраться в деталях реализации.

Если коротко: Moondream делает ставку на сочетание точности и скорости в нише, где большинство инструментов жертвуют одним ради другого. Обновление от 10 марта – очередной шаг в этом направлении. ✦

Ссылка на публикацию: https://moondream.ai/blog/segmenting-update-2026-03-10

Оригинальное название: Moondream Segmenting Update: Better Masks, Better Benchmarks, 40% Faster

Дата публикации: 11 мар 2026

Moondream moondream.ai Американский проект, разрабатывающий компактные мультимодальные ИИ-модели для анализа изображений.

Предыдущая статья Запустить ИИ – не проблема. Защитить его – уже сложнее Следующая статья Fireworks AI появился в Microsoft Foundry: быстрые открытые модели теперь внутри Azure

Moondream научилась выделять объекты на фото точнее и на 40% быстрее

Сегментация изображений по текстовому описанию и сфера её применения

Ключевые улучшения и результаты тестов новой версии Moondream

Сравнение Moondream с альтернативными моделями сегментации

Доступность обновления и варианты использования модели

Связанные публикации

Qwen-Image 2.0: когда нейросеть умеет и рисовать, и редактировать

Mistral выпустила Vibe 2.0 – модель, которая понимает изображения и видео

Qwen3.5: первая модель с нативной мультимодальностью

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации