Представьте, что вам нужно выделить на фотографии не просто «человека», а «человека в синей рубашке, стоящего у левого поручня моста и смотрящего вниз». Большинство моделей компьютерного зрения с такой задачей не справятся – они умеют работать с простыми категориями, но теряются, когда описание становится сложнее. Moondream занимается именно этим: понимает развёрнутые словесные описания и точно выделяет нужный объект на изображении. 10 марта 2026 года команда выпустила обновлённую версию этой функции.
Что такое сегментация и зачем она нужна
Сегментация – это когда модель не просто находит объект на картинке, а буквально «обводит» его по контуру. Проще говоря, она создаёт маску: точную форму объекта, которую можно использовать для редактирования фото, анализа сцены, автоматизации разметки данных и десятков других задач.
Особенность Moondream в том, что она работает с так называемыми referring expressions – уточняющими выражениями на естественном языке. Не «найди машину», а «найди белый Porsche 911 на переднем плане». Или «бельё на полу». Или «Уолли под номером 25317». Это принципиально сложнее, чем просто распознать категорию объекта.
Что изменилось в обновлении
Новая версия модели получила улучшения сразу по трём направлениям.
Качество масок стало выше. Moondream изначально строит маски в формате SVG – это векторная графика, которая сохраняет чёткость при любом масштабе. В отличие от пиксельных масок, которые «размываются» при увеличении, SVG остаётся точным. Новая версия ещё аккуратнее обводит контуры объектов.
Скорость выросла на 40%. Это существенно для тех, кто обрабатывает большое количество изображений или создает приложения, где критична минимальная задержка.
Показатели на стандартных тестах улучшились. Для оценки качества сегментации используют специальные наборы данных – RefCOCO, RefCOCO+ и RefCOCOg. Они проверяют, насколько точно модель понимает описания разного типа: с указанием на положение объекта, с описанием его внешности, с длинными и сложными фразами. По всем этим тестам новая версия показала результаты лучше предыдущей. Причём предыдущим эталоном тоже был Moondream – то есть команда побила собственный рекорд.
А что насчёт конкурентов?
В сентябре 2025 года, когда Moondream только запустила функцию сегментации в составе Moondream 3 Preview, она сразу показала лучшие результаты на бенчмарках. С тех пор вышло несколько других моделей с похожими возможностями, но Moondream, по данным команды, сохраняет лидерство.
Один из характерных примеров сравнения – с SAM 3 от Meta. SAM 3 умеет сегментировать объекты по простым запросам вроде «машина» или «человек», но когда нужно обработать более сложное описание – например, «человек, касающийся двери», – его одного недостаточно. Приходится подключать дополнительную большую языковую модель, что увеличивает время и стоимость обработки. Moondream справляется с такими запросами без посредников.
Вообще, в этой области есть характерная развилка: мощные мультимодальные модели понимают сложные описания, но работают медленно и дорого. Лёгкие модели быстрые, но плохо справляются со всем, что сложнее простого существительного. Moondream позиционирует себя как решение, которое отвечает обоим требованиям одновременно.
Кому это полезно прямо сейчас
Обновление уже доступно в Moondream Cloud. Если вы уже используете сегментацию через этот сервис – улучшения применятся автоматически, ничего дополнительно настраивать не нужно.
Для тех, кто предпочитает запускать модели локально, команда анонсировала выход версии для локального запуска в ближайшие дни после публикации обновления. Вместе с ней планируется выпуск технического описания для тех, кто хочет разобраться в деталях реализации.
Если коротко: Moondream делает ставку на сочетание точности и скорости в нише, где большинство инструментов жертвуют одним ради другого. Обновление от 10 марта – очередной шаг в этом направлении. ✦