Обучение роботов – дело дорогое. Не в смысле «купить железо», а в плане того, что происходит до того, как робот научится что-то делать. Нужны люди, которые управляют им вручную, снова и снова демонстрируя нужное поведение. Требуются сотни часов записей, десятки площадок, согласованная инфраструктура. Open X-Embodiment – один из крупнейших открытых наборов таких данных – собирался силами 21 организации и содержит больше миллиона реальных траекторий. DROID – ещё один известный датасет – это 350 часов телеуправления, собранных в 13 учреждениях. Это огромный труд, который остаётся главным ограничением для большинства лабораторий.
Именно поэтому идея обучить робота целиком в симуляции – без единой реальной демонстрации – выглядит одновременно привлекательно и рискованно. Привлекательно, потому что симуляция дёшева, масштабируема и воспроизводима. Рискованно, потому что реальный мир отличается от виртуального, и этот разрыв традиционно считается одним из главных препятствий.
Виртуальный опыт – реальный результат
Исследовательский институт Ai2 решил проверить, можно ли преодолеть этот разрыв не за счёт более реалистичной симуляции, а за счёт её разнообразия. Идея такова: если показать модели достаточно разных виртуальных сцен – различные объекты, освещение, углы камеры, текстуры, физические условия, – она научится обобщать и перенесёт этот опыт в реальность.
11 марта 2026 года Ai2 представил MolmoBot – набор моделей для управления роботами-манипуляторами, обученных исключительно на синтетических данных. Никакого реального телеуправления. Никакой доработки на реальных сценах. Только симуляция – и затем сразу реальный робот.
Результаты оказались неожиданно убедительными. На задачах типа «возьми предмет и положи его в нужное место» лучшая модель из набора превзошла π0.5 – систему от Physical Intelligence, обученную на больших объёмах реальных данных. При этом MolmoBot не видел этих объектов и сцен раньше – ни в симуляции, ни тем более в реальности.
Набор охватывает несколько типов задач:
- захват объектов и их перемещение на столе;
- работа с подвижными частями: ящиками, шкафами, микроволновками;
- открывание дверей – с подходом, захватом ручки и движением через весь диапазон.
Управлять роботом можно словами или указанием точки – например, «возьми», «положи», «закрой». Всё это работает на двух разных платформах: стационарном манипуляторе Franka FR3 и мобильном роботе Rainbow Robotics RB-Y1.
Проще говоря, это не узкоспециализированная система под одну задачу и одного робота. Это попытка создать нечто более универсальное и сделать это открытым.
Почему это важнее, чем кажется
Большинство современных систем, использующих симуляцию, применяют её как дополнение к реальным данным. Симуляция помогает, но реальные демонстрации всё равно остаются в основе. MolmoBot убирает этот слой полностью.
Для индустрии это меняет саму природу «узкого места». Сейчас главное ограничение – сбор данных: нужны люди, роботы, помещения, время. Если симуляция работает как единственный источник обучения, то критическим фактором становится уже не сбор, а проектирование виртуальных сред. А это задача, которую можно масштабировать с помощью вычислений и открытых инструментов – без армии операторов.
Для академических лабораторий это особенно важно. Многие из них просто не могут позволить себе телеоперационную инфраструктуру или партнёрство масштаба Open X-Embodiment. MolmoBot вместе с открытой экосистемой MolmoSpaces – набором инструментов для генерации синтетических данных – потенциально делает манипуляционную робототехнику доступнее.
Честность в оценке
Важно понимать, что MolmoBot – это не заявка на окончательное решение «проблемы роботов». Это проверка гипотезы: может ли обучение только в симуляции эффективно работать для манипуляций? Ответ – по крайней мере в тех задачах, которые тестировались, – похоже, положительный.
Но открытых вопросов остаётся много. Как поведёт себя система в более сложных, хаотичных условиях? Как она справится с задачами, требующими тонкой тактильной обратной связи, которую симуляция воспроизводит неточно? Где именно она ломается и что нужно, чтобы это исправить?
Авторы сами говорят, что хотят увидеть, где модель даёт сбой. Именно для этого они открыли не только модели, но и весь технологический стек: данные, пайплайны генерации, код обучения и технический отчёт. Это нетипично для робототехники, где большинство серьёзных систем остаются закрытыми.
Если коротко: MolmoBot – это аргумент в пользу того, что синтетические данные могут стать основой, а не просто дополнением в обучении роботов. Пока это лишь один эксперимент, пусть и убедительный. Но направление, которое он задаёт, выглядит как один из наиболее реалистичных путей к тому, чтобы роботы стали доступны не только крупным корпорациям.