Опубликовано 19 марта 2026

MolmoPoint: новый ИИ-подход к точному указанию объектов на изображении

MolmoPoint: новый подход к тому, как ИИ «указывает пальцем» в изображение

Исследователи из Allen AI представили MolmoPoint – архитектуру, которая позволяет языковым моделям точнее указывать на конкретные объекты на изображениях.

Исследования 4 – 6 минут чтения
Источник события: Ai2 4 – 6 минут чтения

Большинство из нас привыкли взаимодействовать с языковыми моделями через текст: спрашиваешь – получаешь ответ. Но у современных ИИ-систем есть и визуальная сторона: они умеют смотреть на изображения и отвечать на вопросы о том, что на них изображено. Это направление называют визуально-языковыми моделями, и оно активно развивается.

Один из сложных навыков в этой области – не просто описать картинку в целом, а точно указать на конкретный объект. Условно говоря, не «на изображении есть кошка», а «вот она, вот её нос, вот правое ухо». Именно эту задачу – точное указание на объекты – и решает новая разработка от Allen AI под названием MolmoPoint.

Зачем нужно точное указание объектов ИИ

Зачем вообще нужно «указывать пальцем»

Кажется, что это мелочь. Но на практике способность точно указать на объект – это основа для многих полезных применений. Роботу, который должен взять предмет со стола, недостаточно знать, что «стакан стоит слева» – ему нужны точные координаты. Системе дополненной реальности важно понимать, на что именно смотрит пользователь. Медицинскому ИИ нужно указать не просто «что-то подозрительное на снимке», а конкретное место.

Проще говоря, указание на объект – это мост между пониманием и действием. И чем точнее этот мост, тем шире применимость модели в реальных задачах.

Проблемы предыдущих методов указания объектов ИИ

Что делали до этого – и в чём была проблема

Предыдущие подходы к указанию объектов на изображениях работали по-разному, но большинство из них так или иначе сводилось к одному из двух вариантов: либо модель предсказывала ограничивающий прямоугольник вокруг объекта (bounding box), либо выдавала набор координат точек, обозначающих местоположение.

Обе стратегии работают, но у них есть общая слабость: чтобы добиться хорошей точности, нужно много размеченных данных. А разметка – это дорого, медленно и требует участия людей. При этом модель, обученная на координатах в одном формате, может плохо справляться с тем же заданием в другом формате или на другом типе изображений.

Кроме того, сами архитектурные решения нередко были «приклеены» к основной модели как дополнение, а не органично встроены в неё. Это ограничивало возможности совместного обучения и снижало общую эффективность.

Что предлагает MolmoPoint для указания объектов

Что предлагает MolmoPoint

Команда Allen AI предложила иначе устроить саму архитектуру – то есть то, как модель «думает» об указании на объект.

Ключевая идея MolmoPoint – разделить визуальное понимание и точное позиционирование. Вместо того чтобы требовать от одной части модели делать всё сразу, авторы выделили отдельный компонент, который занимается именно локализацией – нахождением точного места на изображении.

При этом модель не просто предсказывает одну точку или один прямоугольник, а работает с тепловыми картами – своеобразными «картами вероятности», где более яркие области соответствуют большей уверенности в том, что искомый объект находится именно там. Это более гибкий подход: он позволяет указывать на объекты разного размера и формы, не привязываясь к жёсткому формату прямоугольника.

Ещё один важный момент – обучение. MolmoPoint разработан так, чтобы эффективно использовать синтетически сгенерированные данные, то есть данные, созданные автоматически, а не размеченные вручную. Это существенно снижает зависимость от дорогостоящей ручной разметки и открывает путь к масштабированию: чем больше синтетических данных, тем лучше модель справляется с задачей.

Эффективность MolmoPoint в распознавании объектов

Насколько это работает

По результатам, которые приводит команда Allen AI, MolmoPoint показывает заметно более высокую точность указания по сравнению с предыдущими подходами – в том числе на задачах, где раньше у визуально-языковых моделей возникали сложности: объекты с нечёткими границами, мелкие детали, сцены с большим количеством похожих предметов.

При этом модель остаётся относительно компактной и не требует радикального увеличения вычислительных ресурсов. Это важно: нередко улучшение точности достигается ценой значительного усложнения системы, что делает её малопригодной для практического применения.

MolmoPoint: часть серии моделей Molmo

Это часть более широкой картины

MolmoPoint – не изолированная разработка. Она развивает линейку моделей Molmo, которую Allen AI ведёт уже некоторое время. Molmo изначально строилась как открытая и исследовательски ориентированная альтернатива закрытым коммерческим системам – с акцентом на прозрачность и воспроизводимость результатов.

Добавление MolmoPoint – это шаг в сторону более «деятельных» моделей: не просто понимать, что на картинке, а уметь взаимодействовать с визуальной информацией на более конкретном, операциональном уровне. В перспективе это важно для роботизированных систем, интерфейсов с дополненной реальностью, систем помощи людям с ограниченными возможностями и многих других применений, где точность пространственного указания критична.

Открытость разработки MolmoPoint

Открытость как принцип

Команда Allen AI публикует как веса модели, так и код и описание подхода. Это соответствует общей философии института: делать исследования доступными для других разработчиков и исследователей, а не держать их за закрытой дверью.

Для тех, кто занимается смежными задачами – обучением роботов, разработкой визуальных интерфейсов, медицинской визуализацией – это означает, что MolmoPoint можно взять и попробовать применить в своих проектах без необходимости строить всё с нуля.

Открытые вопросы по работе MolmoPoint

Что остаётся неясным

Как это обычно бывает с исследовательскими публикациями, часть вопросов пока остаётся открытой. Насколько хорошо MolmoPoint справляется в условиях, сильно отличающихся от тех, на которых модель обучалась? Как она ведёт себя с изображениями низкого качества или с нестандартными визуальными сценами? Насколько хорошо синтетические данные заменяют реальную разметку в самых сложных случаях?

Это не критика – это нормальная ситуация для любой новой разработки. Ответы на эти вопросы, как правило, появляются по мере того, как другие команды начинают работать с моделью и публиковать свои результаты.

Пока же MolmoPoint выглядит как осмысленный шаг вперёд в области, которая всё ещё активно формируется: как научить ИИ не просто смотреть, но и точно указывать.

Ссылка на публикацию: https://allenai.org/blog/molmopoint
Оригинальное название: MolmoPoint: Better pointing architecture for vision-language models
Дата публикации: 18 мар 2026
Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.
Предыдущая статья Как ИИ учится «слышать» важное: извлечение данных из живой речи в реальном времени Следующая статья Инференс: почему нельзя сравнивать ИИ-ускорители по одной цифре

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Новый метод позволяет автономным системам оставаться в безопасности, даже когда датчики «врут», а истинное положение робота скрыто за облаком шума и неточностей.

Доктор Ким Ли 30 янв 2026

Исследователи из Physical Intelligence научили роботов сочетать долгосрочную и краткосрочную память, что существенно меняет их подход к решению сложных задач.

Physical Intelligencewww.pi.website 5 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться