Опубликовано 30 октября 2025

Как научить робота выполнять задачи без предварительного обучения

Как научить робота делать всё что угодно – без единого урока

Представьте робота, который смотрит видео в интернете и учится на нём выполнять задачи – без инструкций и тренировок. Теперь это реальность.

Компьютерная наука 11 – 17 минут чтения

Автор публикации: Доктор София Чен 11 – 17 минут чтения

Помните фильм «Из машины»? Там робот учился быть человеком, наблюдая за людьми. Теперь представьте, что ваш кухонный робот смотрит YouTube и вдруг понимает, как повесить кружку на крючок или полить цветок. Звучит как фантастика? Познакомьтесь с NovaFlow – системой, которая превращает это в реальность. 🤖

Проблема обучения роботов: почему традиционные методы неэффективны

Проблема: роботы – ужасные ученики

Давайте начистоту. Современные роботы – это как те студенты, которым нужно показать решение задачи сотню раз, прежде чем они её запомнят. И даже после этого малейшее изменение условий – и всё, они в ступоре.

Почему так происходит? Большинство роботизированных систем работают по принципу «покажи мне, и я повторю». Инженеры записывают тысячи примеров того, как робот должен взять чашку, переместить коробку или открыть дверь. Эти данные скармливаются нейросети, которая учится копировать действия. Проблема в том, что такой подход работает только в очень узких условиях.

Представьте, что вы научили робота вешать синюю кружку на крючок в вашей лаборатории. Отлично! Но перенесите этого робота на другую кухню, дайте ему красную кружку или измените высоту крючка – и он растеряется, как турист без Google Maps в незнакомом городе. Это называется проблемой переноса знаний, и она преследует робототехнику уже десятилетия.

Более того, сбор этих обучающих данных – адский труд. Вам нужно физически водить рукой робота сотни раз, записывая каждое движение. Это как учить кого-то готовить борщ, держа его руки в своих на каждом этапе. Утомительно, долго и совершенно не масштабируется.

Решение NovaFlow: обучение роботов через генерацию видео

Решение: если робот не может учиться на примерах, пусть учится на фантазиях

Команда исследователей подошла к проблеме с другой стороны. Вместо того чтобы показывать роботу реальные примеры, они решили использовать его... воображение. Точнее, воображение искусственного интеллекта, который умеет генерировать видео.

Схема гениально проста:

Вы говорите роботу, что нужно сделать (например, «повесь кружку на крючок»).
ИИ генерирует видео, как это могло бы выглядеть.
Система анализирует это видео и понимает, как именно движутся объекты в пространстве.
Робот превращает эти движения в свои собственные действия.

Это как если бы вы попросили друга представить, как приготовить блюдо, которое он никогда не готовил, а потом воссоздали рецепт по его описанию. Только вместо друга – нейросеть, обученная на миллионах видео из интернета.

Как работает NovaFlow: от визуальных данных к действиям робота

Как это работает: от пикселей к действиям

Давайте разберём NovaFlow на части, как механизм швейцарских часов. Система состоит из двух ключевых компонентов: генератора потока и исполнителя потока. Звучит технически, но сейчас всё станет понятно.

Генератор потока: режиссёр в голове робота

Представьте, что у робота есть внутренний кинотеатр. Первый модуль – это режиссёр, который создаёт короткий фильм о том, как должна выполняться задача.

Вот как это происходит пошагово:

Шаг 1: Съёмка сцены Робот делает фотографию того, что перед ним. Не простую фотографию, а RGB-D изображение – это как обычное фото плюс информация о том, на каком расстоянии находится каждый объект. Представьте, что к каждому пикселю приклеена бирка с цифрой, обозначающей расстояние.

Шаг 2: Генерация видео Вы даёте текстовую команду: «повесь кружку на крючок». Система использует модель генерации видео (похожую на те, что создают вирусные ролики в TikTok, только умнее) и создаёт короткое видео, показывающее, как эта задача могла бы выполняться. Важный момент: это не реальное видео, а синтезированное воображение ИИ, основанное на миллионах видео, которые он видел во время обучения.

Шаг 3: Преобразование в 3D Помните, я говорила про «Чёрное зеркало»? Вот где начинается магия. Плоское 2D-видео превращается в трёхмерное понимание пространства. Специальные алгоритмы оценки глубины анализируют каждый кадр и восстанавливают, где именно в пространстве находятся кружка, рука (если она есть на видео) и крючок.

Шаг 4: Отслеживание движения Дальше система «цепляет» невидимые маркеры к ключевым точкам объекта – ручке кружки, её ободку, дну. Она отслеживает, как эти точки перемещаются от кадра к кадру. Это похоже на те точки захвата движения, которые актёры носят при съёмке CGI-фильмов, только здесь они виртуальные.

Шаг 5: Фильтрация и проверка Не всё сгенерированное видео имеет смысл. Иногда ИИ создаёт физически невозможные движения: кружка телепортируется, проходит сквозь стол или вдруг меняет размер. Поэтому NovaFlow использует визуально-языковую модель (думайте о ней как о строгом учителе физики), которая проверяет: «Эй, это вообще реалистично»? Нереалистичные траектории отбрасываются.

В результате получается то, что исследователи называют исполнимым потоком – набор трёхмерных траекторий, описывающих, как должен двигаться объект в пространстве. Это промежуточный язык между «пойми задачу» и «сделай это физически».

Исполнитель потока: хореограф для железных рук

Теперь у робота есть план движения объекта, но ему нужно превратить его в движения собственных суставов. Это как если бы вы увидели танец и вам нужно было повторить его своим телом: вы понимаете траектории движения, но должны адаптировать их под свою анатомию.

NovaFlow использует два разных подхода в зависимости от типа объекта:

Подход 1: Твёрдые и сочленённые объекты (кружки, коробки, дверцы)

Для объектов, которые не меняют форму, система решает геометрическую задачу. Она знает, как объект должен двигаться, и теперь нужно понять: «Где я должен его схватить и как двигать рукой, чтобы получилась нужная траектория»?

Вот где появляется алгоритм с красивым именем Кабша (да, это фамилия математика). Он находит наилучшее совмещение между текущим положением объекта и желаемым – вычисляет поворот и сдвиг. Представьте игру в тетрис в 3D: вы знаете, где должна оказаться фигура, и ищете, как её повернуть и сдвинуть.

Дальше подключается модуль захвата. Он анализирует форму объекта и предлагает лучшие точки для захвата: где схватить кружку, чтобы она не выскользнула? Обычно это ручка, но если её нет, система ищет стабильные точки на корпусе.

После этого запускается оптимизация траектории. Роботу мало знать начальную и конечную точку – ему нужен плавный путь между ними, который:

Не приведёт к столкновению со столом или другими объектами.
Не вывернет суставы робота в невозможные позиции.
Будет плавным, чтобы содержимое кружки не расплескалось.

Это как планирование маршрута в навигаторе, только в 3D и с учётом физических ограничений робота.

Подход 2: Деформируемые объекты (верёвки, ткань, тесто)

С мягкими объектами всё сложнее. Когда вы берёте верёвку за один конец, остальная её часть ведёт себя непредсказуемо – провисает, изгибается, цепляется за углы. Нельзя просто вычислить одно жёсткое преобразование и ожидать, что всё получится.

Для таких случаев NovaFlow использует модель на основе частиц. Представьте, что объект состоит из множества маленьких шариков, связанных пружинками. Когда вы тянете за один шарик, остальные следуют за ним, но с задержкой и со своей физикой.

Система использует планирование на основе модели: она делает небольшое движение, симулирует, что произойдёт с объектом, сравнивает результат с желаемой траекторией из потока и корректирует следующее движение. Этот непрерывный цикл предсказания и корректировки называется MPC (Model Predictive Control, или «модельное предиктивное управление»).

Аналогия: вы ведёте машину ночью с ближним светом. Вы не видите весь путь сразу, но делаете небольшие корректировки каждые несколько метров, постепенно приближаясь к цели.

NovaFlow на практике: эксперименты и результаты применения роботов

Эксперименты: когда теория встречается с реальностью

Исследователи протестировали NovaFlow на двух совершенно разных роботах – и в этом суть. Первый – Franka, настольная роботизированная рука с захватом Robotiq. Классический лабораторный манипулятор, который вы могли видеть в исследовательских центрах. Второй – Spot, четвероногий мобильный робот от Boston Dynamics (да, тот самый, который танцует в вирусных роликах), с установленной на него рукой.

Задачи были подобраны от простых к сложным:

«Повесь кружку» – Звучит легко? Попробуйте повесить кружку на крючок с закрытыми глазами, и поймёте, насколько это требует точности. Ручка должна зацепиться за крючок, а не промахнуться на миллиметр. NovaFlow справилась в 60% попыток на Franka и в 70% на Spot.

«Вставь блок в отверстие» – Задача на точность уровня сборки мебели из IKEA. Блок должен войти в паз идеально ровно, иначе застрянет. Здесь точность упала до 40–60%, что показывает ограничения метода при высокоточных задачах.

«Поставь чашку на блюдце» – Деликатная задача, требующая не только точности, но и плавности. Если резко опустить чашку, она подпрыгнет или сдвинет блюдце. NovaFlow показала 60–80% успешности в зависимости от робота.

«Полей растение» – Здесь интересно, что робот должен понять не только механику (взять лейку, наклонить), но и семантику (где растение? куда лить?). Система справилась благодаря пониманию контекста из языковой модели.

«Открой ящик» – Работа с сочленённым объектом, где нужно понять ось вращения и приложить усилие в правильном направлении. NovaFlow вычисляет эту ось из потока движения и планирует траекторию, которая тянет ручку по дуге.

«Выпрями верёвку» – Самое сложное. Верёвка запуталась, и нужно распрямить её до более-менее прямой линии. Здесь модель частиц показала себя: робот делает последовательные движения, отслеживая, как меняется форма верёвки, и корректируется на лету.

Сравнение с конкурентами: битва подходов

Исследователи сравнили NovaFlow с методами, которые учатся на демонстрациях. Взяли Diffusion Policy (популярный метод, который учится на 20 примерах выполнения задачи человеком) и Inverse Dynamics Model (метод, который учится предсказывать действия по наблюдениям).

Результат? NovaFlow без единого примера показала результаты на уровне этих методов или даже лучше, хотя те были обучены на десятках демонстраций. Это как если бы студент, который учился по видео на YouTube, сдал экзамен лучше того, кто посещал все лекции.

Почему так вышло? Дело в обобщении. Методы, обученные на примерах, запоминают специфику конкретных объектов и условий. NovaFlow же извлекает абстрактное понимание движения из видеомодели, обученной на огромном разнообразии сценариев из интернета. Она видела (через генеративную модель) тысячи способов повесить кружку, а не только те 20, что показали в лаборатории.

Анализ ошибок: типичные проблемы при выполнении задач роботами

Когда всё идёт не так: анатомия неудач

Давайте будем честны – система не идеальна. Исследователи проанализировали провалы и выделили четыре основных типа ошибок:

1. Ошибки видео (20% неудач) Генеративная модель иногда создаёт физически невозможные сценарии. Например, кружка может «пройти» сквозь крючок вместо того, чтобы зацепиться. Или объект внезапно телепортируется. Это как сон, где физика работает странно: вы летаете, объекты меняют размер. Проблема в том, что видеомодели обучены на правдоподобности, а не на строгом соблюдении физических законов.

2. Сбои отслеживания (15% неудач) Когда объект частично скрыт (рука перекрывает кружку или кружка заходит за край стола), система теряет ключевые точки. Алгоритмы отслеживания пытаются предсказать их положение, но могут ошибиться. Это как пытаться следить за мячом в толпе – время от времени вы его теряете из виду.

3. Ошибки захвата (25% неудач) Робот промахивается мимо объекта, хватает его неправильно или роняет во время движения. Физический контакт – самое слабое место. Модель захвата предлагает точки, основываясь на геометрии, но не учитывает реальные свойства поверхности: скользкая ли кружка? Достаточно ли силы захвата?

4. Ошибки исполнения (40% неудач) Самая большая категория. Даже если всё остальное сработало идеально, робот может столкнуться с неучтённым препятствием, его траектория может оказаться слишком резкой и уронить объект, или же движение потребует от суставов невозможного положения – и оптимизатор не найдёт решения.

Интересно, что большинство проблем – на стороне физического исполнения, а не понимания задачи. Это говорит о том, что «интеллект» системы (генерация плана) работает лучше, чем «тело» (его реализация).

Значение целевого изображения для повышения точности роботов

Роль целевого изображения: карта сокровищ для робота

Исследователи проверили интересную гипотезу: что если помимо текстовой команды показать роботу фотографию желаемого результата? Например, не просто «повесь кружку», а «повесь кружку вот так» + фото кружки на крючке.

Результат впечатляющий. Для задач, требующих миллиметровой точности (вставить блок, поставить чашку на блюдце), успешность выросла на 20–30%. Почему? Целевое изображение устраняет неоднозначность. «Повесить кружку» можно по-разному: за какую часть ручки? Под каким углом? На какую глубину надеть на крючок? Фото отвечает на все эти вопросы.

Это как разница между «найди ресторан» и «найди вот этот конкретный ресторан вот на этой улице». Больше информации – точнее результат.

Скорость работы NovaFlow: текущие показатели и перспективы

Скорость работы: терпение – добродетель робота

NovaFlow не мгновенна. На мощном GPU H100 (это топовая графическая карта, которая стоит как небольшой автомобиль) обработка одной задачи занимает около двух минут. Большую часть времени система тратит на:

Генерацию видео – 60–80 секунд. Это самое узкое место, потому что создание реалистичного видео требует огромных вычислений.
Оценку глубины – 20–30 секунд. Превращение 2D в 3D – нетривиальная задача.
Оптимизацию траектории – 10–20 секунд. Поиск плавного пути, избегающего препятствий.

Для научного эксперимента это приемлемо. Для реального применения – медленно. Представьте робота-официанта, который стоит две минуты, размышляя, как подать вам кофе. Но помните: это нулевой этап обучения. Робот думает с нуля, не используя заранее заготовленные паттерны.

Значимость NovaFlow для робототехники: перенос знаний и масштабирование

Почему это важно: от лаборатории к реальному миру

NovaFlow решает фундаментальную проблему робототехники – переносимость знаний. В науке это называется transfer learning, или перенос обучения.

Традиционно, если вы обучали робота-манипулятора Franka, эти знания нельзя было перенести на Spot или на любого другого робота. Разная кинематика, разные захваты, разные сенсоры – всё нужно учить заново. Это огромное препятствие для масштабирования робототехники.

NovaFlow разрывает эту связь. Система разделяет задачу на «что делать» (понимание через видео) и «как делать» (адаптация к конкретному роботу через оптимизацию). Промежуточное представление – 3D-поток объектов – универсальное для любого робота.

Аналогия из программирования: это как если бы вы написали код на универсальном языке, который может быть скомпилирован под любую платформу – Windows, Mac, Linux. Вы пишете один раз, а работает везде. NovaFlow – это такой «универсальный язык» для роботизированных задач.

Ограничения NovaFlow и направления для дальнейшего развития

Ограничения и будущее: что дальше?

Несмотря на впечатляющие результаты, система далека от совершенства. Вот ключевые направления для развития:

Замкнутый контур и обратная связь Сейчас NovaFlow работает в режиме «открытого цикла» – планирует траекторию заранее и выполняет её, не корректируясь в процессе. Это как ехать с закрытыми глазами по заранее построенному маршруту. Если что-то изменилось (объект сдвинулся, рука соскользнула), робот не адаптируется.

Будущее – в замкнутом цикле, где камеры постоянно отслеживают выполнение, и система корректирует действия в реальном времени. Это как вождение с открытыми глазами: вы видите дорогу и адаптируетесь к ситуации.

Улучшение физического контакта Большинство неудач происходит на этапе схватывания и удержания. Нужны лучшие модели захвата, возможно, с обучением на реальных данных или с использованием тактильных сенсоров (датчиков касания). Представьте, что робот чувствует, насколько крепко он держит объект, как вы чувствуете вес чашки в руке.

Более быстрые модели Две минуты на задачу – это долго. Оптимизация видеогенерации и оценки глубины может сократить время до десятков секунд, что уже приемлемо для многих приложений.

Адаптация к динамическим сценам Сейчас NovaFlow предполагает, что окружение статично. А что если объекты движутся? Или есть другие агенты (люди, животные, другие роботы)? Планирование в динамичной среде – следующий уровень сложности.

Будущее робототехники: машины, обучающиеся через воображение ИИ

Заключение: роботы учатся мечтать

NovaFlow – это пример того, как современный ИИ меняет парадигму робототехники. Вместо того чтобы собирать тысячи примеров для каждой задачи и каждого робота, мы можем использовать знания, накопленные в видеомоделях, обученных на данных со всего интернета.

Роботы учатся не на том, что мы им показываем напрямую, а на том, как мир работает в целом – через обобщённое понимание физики, движений и взаимодействий объектов. Они «мечтают» о выполнении задачи, визуализируют её, а потом превращают эту мечту в действия.

Мы всё ещё далеки от универсального робота-помощника из научной фантастики. Но такие системы, как NovaFlow, показывают путь: отделение понимания от исполнения, использование мощных предобученных моделей и модульная архитектура, которая адаптируется к любой платформе.

Возможно, через десять лет мы будем просить домашнего робота «убрать со стола после ужина» или «упаковать чемодан в поездку», и он будет делать это без специального программирования – просто понимая задачу и адаптируя её под свои возможности.

А пока NovaFlow напоминает нам: иногда лучший способ научить кого-то – это дать ему помечтать о том, как это могло бы быть. Даже если этот «кто-то» – робот.

До новых открытий! 🚀

#технический контекст #исследовательский обзор #нейросети #машинное обучение #развитие ии #инженерия #видеогенерация #системы симуляции роботов

Источник: https://arxiv.org/abs/2510.08568v1

Оригинальное название: NovaFlow: Zero-Shot Manipulation via Actionable Flow from Generated Videos

Дата публикации статьи: 9 окт 2025

Авторы оригинальной статьи : Hongyu Li, Lingfeng Sun, Yafei Hu, Duy Ta, Jennifer Barry, George Konidaris, Jiahui Fu

Доктор София Чен Открыть профиль

«ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее.»

Открыть профиль

Я инженер, которая любит объяснять сложное весело. Считаю, что хороший ИИ начинается с честного диалога о его границах.

Предыдущая статья Как углерод горит в сердце звёзд: история одного эксперимента, который изменил наши представления о Вселенной Следующая статья Можно ли научить искусственный интеллект создавать ферменты на заказ?

Как научить робота выполнять задачи без предварительного обучения

Проблема обучения роботов: почему традиционные методы неэффективны

Решение NovaFlow: обучение роботов через генерацию видео

Как работает NovaFlow: от визуальных данных к действиям робота

Генератор потока: режиссёр в голове робота

Исполнитель потока: хореограф для железных рук

Подход 1: Твёрдые и сочленённые объекты (кружки, коробки, дверцы)

Подход 2: Деформируемые объекты (верёвки, ткань, тесто)

NovaFlow на практике: эксперименты и результаты применения роботов

Сравнение с конкурентами: битва подходов

Анализ ошибок: типичные проблемы при выполнении задач роботами

Значение целевого изображения для повышения точности роботов

Скорость работы NovaFlow: текущие показатели и перспективы

Значимость NovaFlow для робототехники: перенос знаний и масштабирование

Ограничения NovaFlow и направления для дальнейшего развития

Будущее робототехники: машины, обучающиеся через воображение ИИ

Связанные публикации

FlowSeek: как научить компьютер видеть движение с минимальными затратами

Как научить ИИ помнить: когда роботы забывают, где оставили ключи

Как генерировать 2K-видео быстро: двухступенчатый подход SANA-Video

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Редакторская проверка

4. Подготовка описания для иллюстрации

5. Создание иллюстрации