Опубликовано 11 марта 2026

Moondream научилась выделять объекты на фото точнее и на 40% быстрее

Moondream обновила функцию сегментации: теперь модель точнее выделяет объекты по сложным описаниям и работает заметно быстрее предыдущей версии.

Продукты 3 – 4 минуты чтения
Источник события: Moondream 3 – 4 минуты чтения

Представьте, что вам нужно выделить на фотографии не просто «человека», а «человека в синей рубашке, стоящего у левого поручня моста и смотрящего вниз». Большинство моделей компьютерного зрения с такой задачей не справятся – они умеют работать с простыми категориями, но теряются, когда описание становится сложнее. Moondream занимается именно этим: понимает развёрнутые словесные описания и точно выделяет нужный объект на изображении. 10 марта 2026 года команда выпустила обновлённую версию этой функции.

Сегментация изображений по текстовому описанию и сфера её применения

Что такое сегментация и зачем она нужна

Сегментация – это когда модель не просто находит объект на картинке, а буквально «обводит» его по контуру. Проще говоря, она создаёт маску: точную форму объекта, которую можно использовать для редактирования фото, анализа сцены, автоматизации разметки данных и десятков других задач.

Особенность Moondream в том, что она работает с так называемыми referring expressions – уточняющими выражениями на естественном языке. Не «найди машину», а «найди белый Porsche 911 на переднем плане». Или «бельё на полу». Или «Уолли под номером 25317». Это принципиально сложнее, чем просто распознать категорию объекта.

Ключевые улучшения и результаты тестов новой версии Moondream

Что изменилось в обновлении

Новая версия модели получила улучшения сразу по трём направлениям.

Качество масок стало выше. Moondream изначально строит маски в формате SVG – это векторная графика, которая сохраняет чёткость при любом масштабе. В отличие от пиксельных масок, которые «размываются» при увеличении, SVG остаётся точным. Новая версия ещё аккуратнее обводит контуры объектов.

Скорость выросла на 40%. Это существенно для тех, кто обрабатывает большое количество изображений или создает приложения, где критична минимальная задержка.

Показатели на стандартных тестах улучшились. Для оценки качества сегментации используют специальные наборы данных – RefCOCO, RefCOCO+ и RefCOCOg. Они проверяют, насколько точно модель понимает описания разного типа: с указанием на положение объекта, с описанием его внешности, с длинными и сложными фразами. По всем этим тестам новая версия показала результаты лучше предыдущей. Причём предыдущим эталоном тоже был Moondream – то есть команда побила собственный рекорд.

Сравнение Moondream с альтернативными моделями сегментации

А что насчёт конкурентов?

В сентябре 2025 года, когда Moondream только запустила функцию сегментации в составе Moondream 3 Preview, она сразу показала лучшие результаты на бенчмарках. С тех пор вышло несколько других моделей с похожими возможностями, но Moondream, по данным команды, сохраняет лидерство.

Один из характерных примеров сравнения – с SAM 3 от Meta. SAM 3 умеет сегментировать объекты по простым запросам вроде «машина» или «человек», но когда нужно обработать более сложное описание – например, «человек, касающийся двери», – его одного недостаточно. Приходится подключать дополнительную большую языковую модель, что увеличивает время и стоимость обработки. Moondream справляется с такими запросами без посредников.

Вообще, в этой области есть характерная развилка: мощные мультимодальные модели понимают сложные описания, но работают медленно и дорого. Лёгкие модели быстрые, но плохо справляются со всем, что сложнее простого существительного. Moondream позиционирует себя как решение, которое отвечает обоим требованиям одновременно.

Доступность обновления и варианты использования модели

Кому это полезно прямо сейчас

Обновление уже доступно в Moondream Cloud. Если вы уже используете сегментацию через этот сервис – улучшения применятся автоматически, ничего дополнительно настраивать не нужно.

Для тех, кто предпочитает запускать модели локально, команда анонсировала выход версии для локального запуска в ближайшие дни после публикации обновления. Вместе с ней планируется выпуск технического описания для тех, кто хочет разобраться в деталях реализации.

Если коротко: Moondream делает ставку на сочетание точности и скорости в нише, где большинство инструментов жертвуют одним ради другого. Обновление от 10 марта – очередной шаг в этом направлении. ✦

Ссылка на публикацию: https://moondream.ai/blog/segmenting-update-2026-03-10
Оригинальное название: Moondream Segmenting Update: Better Masks, Better Benchmarks, 40% Faster
Дата публикации: 11 мар 2026
Moondream moondream.ai Американский проект, разрабатывающий компактные мультимодальные ИИ-модели для анализа изображений.
Предыдущая статья Запустить ИИ – не проблема. Защитить его – уже сложнее Следующая статья Fireworks AI появился в Microsoft Foundry: быстрые открытые модели теперь внутри Azure

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться