Опубликовано 12 марта 2026

Обучение роботов на синтетических данных и перенос навыков в реальный мир

Роботы, которых учили в виртуальном мире: успех в реальности

Исследовательский институт Ai2 научил роботов работать в реальном мире без сбора физических данных – только на основе симуляций. Разбираемся, почему это стало важным сдвигом для всей индустрии робототехники.

Исследования 4 – 5 минут чтения
Источник события: Ai2 4 – 5 минут чтения

Одна из самых устойчивых проблем в робототехнике звучит примерно так: чтобы робот научился чему-то в реальном мире, ему нужен опыт из реального мира. Кажется логичным. Но на практике это означало месяцы ручного сбора данных – когда оператор буквально водит манипулятором робота, показывая ему, как хватать предметы, открывать ящики и двигаться в пространстве. Это дорого, медленно и плохо масштабируется.

Симуляции использовались и раньше – как вспомогательный инструмент или стартовая точка. Но финальную «доводку» всё равно проводили на реальных данных. Предполагалось, что без этого шага система просто не будет работать достаточно надёжно.

Эффективность обучения роботов в виртуальной среде без доводки

Что, если хватит одной симуляции?

Институт искусственного интеллекта Аллена (Ai2) решил проверить эту гипотезу на практике. И 11 марта 2026 года объявил о результате: им удалось обучить роботов исключительно на синтетических данных, а затем напрямую запустить их в реальном мире без дополнительной настройки и единой реальной демонстрации.

Этот подход называют «zero-shot transfer» – проще говоря, перенос без адаптации. Обучение происходит в одной среде (виртуальной), а применение – в другой (физической), без промежуточного переучивания.

Звучит как нечто само собой разумеющееся, но в робототехнике это давний камень преткновения. Виртуальный мир и реальный отличаются во всём: в том, как свет падает на предметы, как объект реагирует на прикосновение и какие возникают нестандартные ситуации. Из-за этого разрыва системы, обученные в симуляции, нередко «ломались» при столкновении с реальностью.

Роль разнообразия симуляции в обобщении навыков робототехники

Разнообразие важнее реализма

Ключевой вывод Ai2 звучит неожиданно: дело не в том, насколько реалистична симуляция. Важно, насколько она разнообразна.

Если робот во время обучения видел достаточно разных сцен, объектов, условий освещения и вариантов расположения предметов, он начинает обобщать информацию. Не запоминать конкретные ситуации, а понимать принципы. И тогда реальный мир перестаёт быть «незнакомой территорией» – он становится просто ещё одним вариантом из уже изученного многообразия.

Ранджай Кришна, директор команды PRIOR в Ai2, формулирует это так:

"Большинство подходов пытается сократить разрыв между симуляцией и реальностью за счёт добавления всё большего объёма реальных данных. Мы сделали противоположную ставку: разрыв сужается, когда вы резко расширяете разнообразие симулируемых сред, объектов и условий съёмки".

Если это верно, то вектор прогресса в робототехнике смещается с вопроса «как собрать больше реальных данных» на вопрос «как построить более богатый виртуальный мир». А это задача, которую можно масштабировать с помощью вычислительных мощностей и решать сообща.

Характеристики инфраструктуры MolmoSpaces и моделей MolmoBot

Что именно выпустили

Вместе с результатами исследования Ai2 открыла всю инфраструктуру, которая за ними стоит.

MolmoSpaces – это экосистема для обучения роботов в симуляции. Внутри: более 230 000 сцен помещений, более 130 000 объектов и свыше 42 миллионов аннотаций для захвата предметов, рассчитанных с учётом физики. Исследователи могут менять расположение объектов, освещение, свойства поверхностей и формулировки задач, систематически изучая, как это влияет на поведение робота. Все материалы открыты: модели, данные, инструменты генерации и бенчмарки.

MolmoBot – это непосредственно набор моделей управления роботом, обученных на базе MolmoSpaces. Он протестирован на двух разных устройствах, включая мобильный манипулятор. Задачи – брать и перекладывать предметы, открывать ящики и шкафы, работать с дверями. И всё это – на объектах и в средах, которые робот никогда раньше не видел.

Значение открытых данных для развития физического интеллекта

Почему открытость здесь принципиальна

Можно было бы ограничиться публикацией результатов – впечатляющим демонстрационным роликом и цифрами в таблице. Но Ai2 публикует всё: код, данные, инструменты и аннотации. Это принципиальная позиция.

Идея в том, что прогресс в области физического ИИ не должен зависеть от закрытых датасетов или изолированных систем. Если симуляция становится общей научной инфраструктурой – такой, которую можно проверить, улучшить и использовать повторно, – исследования становятся воспроизводимыми. Сами же роботы перестают быть привилегией тех, у кого есть доступ к дорогостоящим реальным данным.

Генеральный директор Ai2 Али Фархади говорит об этом прямо:

"Чтобы ИИ действительно двигал науку вперёд, прогресс не может зависеть от закрытых данных или изолированных систем. Нужна общая инфраструктура, на которой исследователи по всему миру смогут строить, проверять и совместно улучшать результаты".

Ограничения метода zero-shot transfer и перспективы технологии

Что остаётся неизвестным

Результат впечатляет, но вопросы остаются. Насколько хорошо это работает за пределами протестированных задач? Как система поведёт себя в совершенно непредсказуемых условиях – например, при столкновении с нестандартной геометрией или непривычным объектом, не похожим ни на что из обучающей выборки?

Пока это доказательство концепции, пусть и очень убедительное. Настоящая проверка начнётся, когда другие команды станут развивать эту инфраструктуру и публиковать собственные результаты.

Ближайший публичный повод для обсуждения – конференция NVIDIA GTC, которая пройдёт 16–19 марта 2026 года в Сан-Хосе.

Ссылка на публикацию: https://allenai.org/blog/molmobot
Оригинальное название: Ai2 Introduces Open, Simulation-First Stack for Physical AI, Achieving Zero-Shot Transfer to Real Robots
Дата публикации: 11 мар 2026
Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.
Предыдущая статья Reka Edge: мощное ИИ-зрение, которому не нужны облака Следующая статья Как обучать ИИ, не передавая данные: федеративное обучение выходит на корпоративный уровень

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

LG AI Research рассказала о K-EXAONE – мультимодальной модели, созданной на собственной технологической базе и ориентированной на корейский язык и культурный контекст.

LG AI Researchwww.lgresearch.ai 4 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться