Опубликовано 12 марта 2026

Обучение роботов на синтетических данных и перенос навыков в реальный мир

Роботы, которых учили в виртуальном мире: успех в реальности

Исследовательский институт Ai2 научил роботов работать в реальном мире без сбора физических данных – только на основе симуляций. Разбираемся, почему это стало важным сдвигом для всей индустрии робототехники.

Исследования 4 – 5 минут чтения
Источник события: Ai2 4 – 5 минут чтения

Одна из самых устойчивых проблем в робототехнике звучит примерно так: чтобы робот научился чему-то в реальном мире, ему нужен опыт из реального мира. Кажется логичным. Но на практике это означало месяцы ручного сбора данных – когда оператор буквально водит манипулятором робота, показывая ему, как хватать предметы, открывать ящики и двигаться в пространстве. Это дорого, медленно и плохо масштабируется.

Симуляции использовались и раньше – как вспомогательный инструмент или стартовая точка. Но финальную «доводку» всё равно проводили на реальных данных. Предполагалось, что без этого шага система просто не будет работать достаточно надёжно.

Эффективность обучения роботов в виртуальной среде без доводки

Что, если хватит одной симуляции?

Институт искусственного интеллекта Аллена (Ai2) решил проверить эту гипотезу на практике. И 11 марта 2026 года объявил о результате: им удалось обучить роботов исключительно на синтетических данных, а затем напрямую запустить их в реальном мире без дополнительной настройки и единой реальной демонстрации.

Этот подход называют «zero-shot transfer» – проще говоря, перенос без адаптации. Обучение происходит в одной среде (виртуальной), а применение – в другой (физической), без промежуточного переучивания.

Звучит как нечто само собой разумеющееся, но в робототехнике это давний камень преткновения. Виртуальный мир и реальный отличаются во всём: в том, как свет падает на предметы, как объект реагирует на прикосновение и какие возникают нестандартные ситуации. Из-за этого разрыва системы, обученные в симуляции, нередко «ломались» при столкновении с реальностью.

Роль разнообразия симуляции в обобщении навыков робототехники

Разнообразие важнее реализма

Ключевой вывод Ai2 звучит неожиданно: дело не в том, насколько реалистична симуляция. Важно, насколько она разнообразна.

Если робот во время обучения видел достаточно разных сцен, объектов, условий освещения и вариантов расположения предметов, он начинает обобщать информацию. Не запоминать конкретные ситуации, а понимать принципы. И тогда реальный мир перестаёт быть «незнакомой территорией» – он становится просто ещё одним вариантом из уже изученного многообразия.

Ранджай Кришна, директор команды PRIOR в Ai2, формулирует это так:

"Большинство подходов пытается сократить разрыв между симуляцией и реальностью за счёт добавления всё большего объёма реальных данных. Мы сделали противоположную ставку: разрыв сужается, когда вы резко расширяете разнообразие симулируемых сред, объектов и условий съёмки".

Если это верно, то вектор прогресса в робототехнике смещается с вопроса «как собрать больше реальных данных» на вопрос «как построить более богатый виртуальный мир». А это задача, которую можно масштабировать с помощью вычислительных мощностей и решать сообща.

Характеристики инфраструктуры MolmoSpaces и моделей MolmoBot

Что именно выпустили

Вместе с результатами исследования Ai2 открыла всю инфраструктуру, которая за ними стоит.

MolmoSpaces – это экосистема для обучения роботов в симуляции. Внутри: более 230 000 сцен помещений, более 130 000 объектов и свыше 42 миллионов аннотаций для захвата предметов, рассчитанных с учётом физики. Исследователи могут менять расположение объектов, освещение, свойства поверхностей и формулировки задач, систематически изучая, как это влияет на поведение робота. Все материалы открыты: модели, данные, инструменты генерации и бенчмарки.

MolmoBot – это непосредственно набор моделей управления роботом, обученных на базе MolmoSpaces. Он протестирован на двух разных устройствах, включая мобильный манипулятор. Задачи – брать и перекладывать предметы, открывать ящики и шкафы, работать с дверями. И всё это – на объектах и в средах, которые робот никогда раньше не видел.

Значение открытых данных для развития физического интеллекта

Почему открытость здесь принципиальна

Можно было бы ограничиться публикацией результатов – впечатляющим демонстрационным роликом и цифрами в таблице. Но Ai2 публикует всё: код, данные, инструменты и аннотации. Это принципиальная позиция.

Идея в том, что прогресс в области физического ИИ не должен зависеть от закрытых датасетов или изолированных систем. Если симуляция становится общей научной инфраструктурой – такой, которую можно проверить, улучшить и использовать повторно, – исследования становятся воспроизводимыми. Сами же роботы перестают быть привилегией тех, у кого есть доступ к дорогостоящим реальным данным.

Генеральный директор Ai2 Али Фархади говорит об этом прямо:

"Чтобы ИИ действительно двигал науку вперёд, прогресс не может зависеть от закрытых данных или изолированных систем. Нужна общая инфраструктура, на которой исследователи по всему миру смогут строить, проверять и совместно улучшать результаты".

Ограничения метода zero-shot transfer и перспективы технологии

Что остаётся неизвестным

Результат впечатляет, но вопросы остаются. Насколько хорошо это работает за пределами протестированных задач? Как система поведёт себя в совершенно непредсказуемых условиях – например, при столкновении с нестандартной геометрией или непривычным объектом, не похожим ни на что из обучающей выборки?

Пока это доказательство концепции, пусть и очень убедительное. Настоящая проверка начнётся, когда другие команды станут развивать эту инфраструктуру и публиковать собственные результаты.

Ближайший публичный повод для обсуждения – конференция NVIDIA GTC, которая пройдёт 16–19 марта 2026 года в Сан-Хосе.

Ссылка на публикацию: https://allenai.org/blog/molmobot
Оригинальное название: Ai2 Introduces Open, Simulation-First Stack for Physical AI, Achieving Zero-Shot Transfer to Real Robots
Дата публикации: 11 мар 2026
Ai2 allenai.org Американский исследовательский институт, занимающийся разработкой языковых моделей и ИИ-систем для науки и образования.
Предыдущая статья Reka Edge: мощное ИИ-зрение, которому не нужны облака Следующая статья Как обучать ИИ, не передавая данные: федеративное обучение выходит на корпоративный уровень

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

LG AI Research рассказала о K-EXAONE – мультимодальной модели, созданной на собственной технологической базе и ориентированной на корейский язык и культурный контекст.

LG AI Researchwww.lgresearch.ai 4 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться