Опубликовано 11 марта 2026

Moondream научилась выделять объекты на фото точнее и на 40% быстрее

Moondream обновила функцию сегментации: теперь модель точнее выделяет объекты по сложным описаниям и работает заметно быстрее предыдущей версии.

Продукты 3 – 4 минуты чтения
Источник события: Moondream 3 – 4 минуты чтения

Представьте, что вам нужно выделить на фотографии не просто «человека», а «человека в синей рубашке, стоящего у левого поручня моста и смотрящего вниз». Большинство моделей компьютерного зрения с такой задачей не справятся – они умеют работать с простыми категориями, но теряются, когда описание становится сложнее. Moondream занимается именно этим: понимает развёрнутые словесные описания и точно выделяет нужный объект на изображении. 10 марта 2026 года команда выпустила обновлённую версию этой функции.

Сегментация изображений по текстовому описанию и сфера её применения

Что такое сегментация и зачем она нужна

Сегментация – это когда модель не просто находит объект на картинке, а буквально «обводит» его по контуру. Проще говоря, она создаёт маску: точную форму объекта, которую можно использовать для редактирования фото, анализа сцены, автоматизации разметки данных и десятков других задач.

Особенность Moondream в том, что она работает с так называемыми referring expressions – уточняющими выражениями на естественном языке. Не «найди машину», а «найди белый Porsche 911 на переднем плане». Или «бельё на полу». Или «Уолли под номером 25317». Это принципиально сложнее, чем просто распознать категорию объекта.

Ключевые улучшения и результаты тестов новой версии Moondream

Что изменилось в обновлении

Новая версия модели получила улучшения сразу по трём направлениям.

Качество масок стало выше. Moondream изначально строит маски в формате SVG – это векторная графика, которая сохраняет чёткость при любом масштабе. В отличие от пиксельных масок, которые «размываются» при увеличении, SVG остаётся точным. Новая версия ещё аккуратнее обводит контуры объектов.

Скорость выросла на 40%. Это существенно для тех, кто обрабатывает большое количество изображений или создает приложения, где критична минимальная задержка.

Показатели на стандартных тестах улучшились. Для оценки качества сегментации используют специальные наборы данных – RefCOCO, RefCOCO+ и RefCOCOg. Они проверяют, насколько точно модель понимает описания разного типа: с указанием на положение объекта, с описанием его внешности, с длинными и сложными фразами. По всем этим тестам новая версия показала результаты лучше предыдущей. Причём предыдущим эталоном тоже был Moondream – то есть команда побила собственный рекорд.

Сравнение Moondream с альтернативными моделями сегментации

А что насчёт конкурентов?

В сентябре 2025 года, когда Moondream только запустила функцию сегментации в составе Moondream 3 Preview, она сразу показала лучшие результаты на бенчмарках. С тех пор вышло несколько других моделей с похожими возможностями, но Moondream, по данным команды, сохраняет лидерство.

Один из характерных примеров сравнения – с SAM 3 от Meta. SAM 3 умеет сегментировать объекты по простым запросам вроде «машина» или «человек», но когда нужно обработать более сложное описание – например, «человек, касающийся двери», – его одного недостаточно. Приходится подключать дополнительную большую языковую модель, что увеличивает время и стоимость обработки. Moondream справляется с такими запросами без посредников.

Вообще, в этой области есть характерная развилка: мощные мультимодальные модели понимают сложные описания, но работают медленно и дорого. Лёгкие модели быстрые, но плохо справляются со всем, что сложнее простого существительного. Moondream позиционирует себя как решение, которое отвечает обоим требованиям одновременно.

Доступность обновления и варианты использования модели

Кому это полезно прямо сейчас

Обновление уже доступно в Moondream Cloud. Если вы уже используете сегментацию через этот сервис – улучшения применятся автоматически, ничего дополнительно настраивать не нужно.

Для тех, кто предпочитает запускать модели локально, команда анонсировала выход версии для локального запуска в ближайшие дни после публикации обновления. Вместе с ней планируется выпуск технического описания для тех, кто хочет разобраться в деталях реализации.

Если коротко: Moondream делает ставку на сочетание точности и скорости в нише, где большинство инструментов жертвуют одним ради другого. Обновление от 10 марта – очередной шаг в этом направлении. ✦

Ссылка на публикацию: https://moondream.ai/blog/segmenting-update-2026-03-10
Оригинальное название: Moondream Segmenting Update: Better Masks, Better Benchmarks, 40% Faster
Дата публикации: 11 мар 2026
Moondream moondream.ai Американский проект, разрабатывающий компактные мультимодальные ИИ-модели для анализа изображений.
Предыдущая статья Запустить ИИ – не проблема. Защитить его – уже сложнее Следующая статья Fireworks AI появился в Microsoft Foundry: быстрые открытые модели теперь внутри Azure

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться