Опубликовано 19 марта 2026

MolmoPoint: новый ИИ-подход к точному указанию объектов на изображении

MolmoPoint: новый подход к тому, как ИИ «указывает пальцем» в изображение

Исследователи из Allen AI представили MolmoPoint – архитектуру, которая позволяет языковым моделям точнее указывать на конкретные объекты на изображениях.

Исследования 4 – 6 минут чтения

Источник события: Ai2 4 – 6 минут чтения

Большинство из нас привыкли взаимодействовать с языковыми моделями через текст: спрашиваешь – получаешь ответ. Но у современных ИИ-систем есть и визуальная сторона: они умеют смотреть на изображения и отвечать на вопросы о том, что на них изображено. Это направление называют визуально-языковыми моделями, и оно активно развивается.

Один из сложных навыков в этой области – не просто описать картинку в целом, а точно указать на конкретный объект. Условно говоря, не «на изображении есть кошка», а «вот она, вот её нос, вот правое ухо». Именно эту задачу – точное указание на объекты – и решает новая разработка от Allen AI под названием MolmoPoint.

Зачем нужно точное указание объектов ИИ

Зачем вообще нужно «указывать пальцем»

Кажется, что это мелочь. Но на практике способность точно указать на объект – это основа для многих полезных применений. Роботу, который должен взять предмет со стола, недостаточно знать, что «стакан стоит слева» – ему нужны точные координаты. Системе дополненной реальности важно понимать, на что именно смотрит пользователь. Медицинскому ИИ нужно указать не просто «что-то подозрительное на снимке», а конкретное место.

Проще говоря, указание на объект – это мост между пониманием и действием. И чем точнее этот мост, тем шире применимость модели в реальных задачах.

Проблемы предыдущих методов указания объектов ИИ

Что делали до этого – и в чём была проблема

Предыдущие подходы к указанию объектов на изображениях работали по-разному, но большинство из них так или иначе сводилось к одному из двух вариантов: либо модель предсказывала ограничивающий прямоугольник вокруг объекта (bounding box), либо выдавала набор координат точек, обозначающих местоположение.

Обе стратегии работают, но у них есть общая слабость: чтобы добиться хорошей точности, нужно много размеченных данных. А разметка – это дорого, медленно и требует участия людей. При этом модель, обученная на координатах в одном формате, может плохо справляться с тем же заданием в другом формате или на другом типе изображений.

Кроме того, сами архитектурные решения нередко были «приклеены» к основной модели как дополнение, а не органично встроены в неё. Это ограничивало возможности совместного обучения и снижало общую эффективность.

Что предлагает MolmoPoint для указания объектов

Что предлагает MolmoPoint

Команда Allen AI предложила иначе устроить саму архитектуру – то есть то, как модель «думает» об указании на объект.

Ключевая идея MolmoPoint – разделить визуальное понимание и точное позиционирование. Вместо того чтобы требовать от одной части модели делать всё сразу, авторы выделили отдельный компонент, который занимается именно локализацией – нахождением точного места на изображении.

При этом модель не просто предсказывает одну точку или один прямоугольник, а работает с тепловыми картами – своеобразными «картами вероятности», где более яркие области соответствуют большей уверенности в том, что искомый объект находится именно там. Это более гибкий подход: он позволяет указывать на объекты разного размера и формы, не привязываясь к жёсткому формату прямоугольника.

Ещё один важный момент – обучение. MolmoPoint разработан так, чтобы эффективно использовать синтетически сгенерированные данные, то есть данные, созданные автоматически, а не размеченные вручную. Это существенно снижает зависимость от дорогостоящей ручной разметки и открывает путь к масштабированию: чем больше синтетических данных, тем лучше модель справляется с задачей.

Эффективность MolmoPoint в распознавании объектов

Насколько это работает

По результатам, которые приводит команда Allen AI, MolmoPoint показывает заметно более высокую точность указания по сравнению с предыдущими подходами – в том числе на задачах, где раньше у визуально-языковых моделей возникали сложности: объекты с нечёткими границами, мелкие детали, сцены с большим количеством похожих предметов.

При этом модель остаётся относительно компактной и не требует радикального увеличения вычислительных ресурсов. Это важно: нередко улучшение точности достигается ценой значительного усложнения системы, что делает её малопригодной для практического применения.

MolmoPoint: часть серии моделей Molmo

Это часть более широкой картины

MolmoPoint – не изолированная разработка. Она развивает линейку моделей Molmo, которую Allen AI ведёт уже некоторое время. Molmo изначально строилась как открытая и исследовательски ориентированная альтернатива закрытым коммерческим системам – с акцентом на прозрачность и воспроизводимость результатов.

Добавление MolmoPoint – это шаг в сторону более «деятельных» моделей: не просто понимать, что на картинке, а уметь взаимодействовать с визуальной информацией на более конкретном, операциональном уровне. В перспективе это важно для роботизированных систем, интерфейсов с дополненной реальностью, систем помощи людям с ограниченными возможностями и многих других применений, где точность пространственного указания критична.

Открытость разработки MolmoPoint

Открытость как принцип

Команда Allen AI публикует как веса модели, так и код и описание подхода. Это соответствует общей философии института: делать исследования доступными для других разработчиков и исследователей, а не держать их за закрытой дверью.

Для тех, кто занимается смежными задачами – обучением роботов, разработкой визуальных интерфейсов, медицинской визуализацией – это означает, что MolmoPoint можно взять и попробовать применить в своих проектах без необходимости строить всё с нуля.

Открытые вопросы по работе MolmoPoint

Что остаётся неясным

Как это обычно бывает с исследовательскими публикациями, часть вопросов пока остаётся открытой. Насколько хорошо MolmoPoint справляется в условиях, сильно отличающихся от тех, на которых модель обучалась? Как она ведёт себя с изображениями низкого качества или с нестандартными визуальными сценами? Насколько хорошо синтетические данные заменяют реальную разметку в самых сложных случаях?

Это не критика – это нормальная ситуация для любой новой разработки. Ответы на эти вопросы, как правило, появляются по мере того, как другие команды начинают работать с моделью и публиковать свои результаты.

Пока же MolmoPoint выглядит как осмысленный шаг вперёд в области, которая всё ещё активно формируется: как научить ИИ не просто смотреть, но и точно указывать.

#технический контекст #исследовательский обзор #нейросети #обучение ии #компьютерное зрение #данные #мультимодальные модели #синтетические данные

Ссылка на публикацию: https://allenai.org/blog/molmopoint

Оригинальное название: MolmoPoint: Better pointing architecture for vision-language models

Дата публикации: 18 мар 2026

Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.

Предыдущая статья Как ИИ учится «слышать» важное: извлечение данных из живой речи в реальном времени Следующая статья Инференс: почему нельзя сравнивать ИИ-ускорители по одной цифре

MolmoPoint: новый ИИ-подход к точному указанию объектов на изображении

Зачем нужно точное указание объектов ИИ

Проблемы предыдущих методов указания объектов ИИ

Что предлагает MolmoPoint для указания объектов

Эффективность MolmoPoint в распознавании объектов

MolmoPoint: часть серии моделей Molmo

Открытость разработки MolmoPoint

Открытые вопросы по работе MolmoPoint

Связанные публикации

Как научить робота не врезаться, когда он не знает, где находится: барьеры безопасности в мире неопределённости

Роботы, которые помнят: как долгосрочная и краткосрочная память меняет подход к управлению роботами

Как генерировать 2K-видео быстро: двухступенчатый подход SANA-Video

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации