Опубликовано

Как научить дрон понимать человеческую речь: от пикселя до полёта

Исследователи создали систему See, Point, Fly, которая позволяет дронам летать куда угодно по обычным словесным командам – без предварительного обучения и тонны данных.

Компьютерная наука
DeepSeek-V3
Leonardo Phoenix 1.0
Автор: Доктор Ким Ли Время чтения: 10 – 15 минут

Образность

77%

Поп-культурные примеры

85%

Современность

92%
Оригинальное название: See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
Дата публикации статьи: 26 сен 2025

Представьте: вы говорите дрону «Лети к тому дереву за красной машиной» – и он просто летит. Не спрашивает координат, не требует программирования маршрута, не путается в препятствиях. Он видит мир своей камерой, понимает ваши слова и преобразует их в последовательность движений. Звучит как фантастика? Ещё недавно – да. Но команда исследователей создала систему See, Point, Fly (SPF), которая делает именно это. И что самое удивительное – ей не нужны месяцы обучения на специальных данных. 🚁

Проблема: когда дроны не понимают обычный язык

Беспилотники уже доставляют посылки, снимают кино и патрулируют территории. Но есть нюанс: большинство из них следует заранее запрограммированным маршрутам или управляется человеком с пульта. Попросить дрон «найти человека в синей куртке и следовать за ним» – задача, которая до недавнего времени казалась неподъёмной.

Почему? Потому что это требует трёх вещей одновременно:

  • Зрительного восприятия – дрон должен видеть мир и понимать, где на изображении дерево, а где – припаркованная машина.
  • Понимания языка – он должен разобрать вашу команду, даже если вы сформулировали её нечётко.
  • Планирования действий – он должен превратить всё это в конкретные движения: вперёд на два метра, влево, вверх.

Классический подход – это как учить ребёнка водить машину, показывая ему тысячи примеров: «Вот здесь мы поворачиваем налево, вот здесь тормозим». Учёные создавали огромные наборы данных с траекториями полётов, где каждое действие дрона было размечено вручную. Модель училась повторять эти паттерны. Проблема? Если дрон в процессе обучения видел только квартиры, он терялся на улице. Если учился летать днём – не справлялся вечером. Данных всегда было мало, а мир – слишком разнообразен.

Революция: языковые модели научились видеть

В последние пару лет произошёл прорыв. Появились мультимодальные языковые модели – системы, которые понимают и текст, и изображения одновременно. Помните, как GPT-4V или Gemini могут посмотреть на фотографию и рассказать, что на ней происходит? Это и есть VLM – Vision-Language Models, модели «зрение-язык».

Эти модели обучались на огромных массивах интернет-данных: миллионы изображений с подписями, описания сцен, инструкции. Они видели всё: от селфи с котами до фотографий космоса. И научились не просто распознавать объекты, а рассуждать о них. Могут объяснить, почему на картинке человек выглядит грустным. Могут предложить, как добраться от точки А до точки Б на карте.

Естественная мысль: а что, если использовать эти модели для управления дронами? Пусть VLM смотрит на картинку с камеры, читает команду человека и говорит дрону, куда лететь!

Но есть загвоздка

Первые попытки были наивными. Исследователи просто просили VLM генерировать текстовые команды вроде «вперёд на 2 метра» или «повернуть налево на 45 градусов». Представьте: нейросеть видит изображение, обрабатывает инструкцию «лети к дереву» и выдаёт ответ словами.

Это как просить друга, сидящего рядом в машине, подсказывать вам повороты, но он может сказать только: «Немного налево». Что значит «немного»? На 10 градусов? На 30? Или вообще на 90?

Проблемы были очевидными:

  • Набор команд был фиксированным и ограниченным.
  • Точность хромала – «примерно туда» это не инструкция для летательного аппарата.
  • VLM приходилось думать категориями «текст о действиях», а не визуальными координатами.

И вот здесь создатели SPF провернули гениальный трюк.

Ключевая идея: не говори, а покажи пальцем

Авторы SPF подумали: зачем заставлять модель описывать словами, куда лететь? Она же видит картинку! Пусть просто покажет на ней точку. Как если бы вы указали пальцем: «Вон туда».

Это кажется очевидным, но это всё меняет.

Вместо того чтобы генерировать текст «лети вперёд на 1,5 метра и немного влево», модель просто ставит точку на изображении: вот пиксель с координатами (320, 240). А дальше – чистая математика. Мы знаем параметры камеры дрона, знаем угол обзора. Значит, можем превратить точку на плоской картинке в трёхмерный вектор: насколько лететь вперёд, влево-вправо и вверх-вниз.

Это как разница между «скажи мне на словах, как пройти к метро» и «покажи на карте». Второе – конкретнее, точнее, понятнее.

Как это работает: пошаговый разбор

Давайте представим сценарий. Вы в сеульском парке Намсан, запускаете дрон и говорите: «Лети к скамейке у фонтана».

Шаг 1. Дрон смотрит на мир

Камера дрона передаёт изображение в систему SPF. На картинке – деревья, дорожки, люди, где-то вдали фонтан и рядом с ним скамейка.

Шаг 2. VLM анализирует сцену

Языковая модель получает два входных сигнала: изображение и вашу инструкцию. Она начинает рассуждать: «Окей, мне нужно найти скамейку. Вижу несколько. Но инструкция гласит „у фонтана». Вот фонтан, значит, нужна скамейка рядом с ним».

Шаг 3. Модель ставит точку

VLM не генерирует текст вроде «лети 3 метра на северо-северо-запад». Она выдаёт структурированный ответ: координаты пикселя (например, x=450, y=300) и примерную оценку глубины – насколько далеко этот объект. Глубина дискретная: «близко», «средне», «далеко».

Шаг 4. Преобразование в 3D-команду

Теперь математика. У нас есть точка на плоской картинке и оценка расстояния. Через внутренние параметры камеры (camera intrinsics), такие как фокусное расстояние и размер матрицы, мы пересчитываем это в трёхмерный вектор: «лети на 2,1 метра вперёд, на 0,3 метра вправо, высоту не меняй».

Шаг 5. Команды для моторов

Дрон – это не машинка на радиоуправлении, которую можно просто толкнуть в нужную сторону. У него четыре ротора (если это квадрокоптер), и нужно рассчитать скорость для каждого. Система SPF преобразует 3D-вектор в команды управления: крен (roll), тангаж (pitch) и тяга (thrust). Это как сказать дрону: «Наклонись немного вперёд, добавь мощности правым винтам, увеличь общую тягу».

Шаг 6. Дрон движется

Моторы включаются, дрон летит в указанном направлении. Но не просто летит и забывает! Это не одноразовая команда. Через мгновение (например, каждые 0,5 секунды) камера снова делает снимок, и весь цикл повторяется. Это называется замкнутый контур управления (closed-loop control). Как когда вы идёте к магазину: вы не просто запоминаете направление в начале пути, а постоянно смотрите по сторонам и корректируете маршрут.

Умные детали: как сделать полёт плавным и безопасным

Создатели SPF продумали несколько важных фишек, которые превращают базовую идею в работающую систему.

Адаптивное расстояние шагов

Если дрон видит, что цель далеко и путь свободен, зачем ползти мелкими шажками? SPF умеет адаптивно менять размер шага. В открытом пространстве – длинные «прыжки», рядом с препятствиями – осторожные короткие движения. Это реализовано через нелинейную функцию, которая преобразует оценку глубины от модели в реальное расстояние полёта.

Формула выглядит примерно так (не пугайтесь):

actual_distance = base_distance × (1 + α × predicted_depth)

Где α – коэффициент, который настраивает «агрессивность». Результат? В экспериментах это ускорило выполнение задач почти в два раза без потери безопасности.

Избегание препятствий на лету

Вы не хотите, чтобы дрон врезался в дерево. SPF интегрирует простую систему обнаружения объектов прямо в процесс планирования. Перед тем как VLM выберет точку, система проверяет: «Эй, а не ведёт ли этот путь прямо в стену?». Если да – модель пересматривает варианты, исключая опасные зоны.

Красота в том, что это не отдельный тяжеловесный детектор препятствий. Современные VLM умеют обнаруживать объекты сами – это называется обнаружением по открытому словарю (open-vocabulary detection). То есть можно попросить модель: «Покажи все препятствия на изображении», и она найдёт не только стандартные «машина, дерево, здание», но и любые другие объекты, которые вы назовёте словами.

Динамические цели

А что если цель движется? Например, задача: «Следуй за человеком в жёлтой куртке». Поскольку SPF работает в замкнутом контуре, постоянно обновляя наблюдения, она естественным образом справляется с этим. На каждом шаге модель заново оценивает положение цели. Человек пошёл влево – дрон скорректирует траекторию. Это как играть в салки: вы не просчитываете весь маршрут заранее, а реагируете на текущее положение того, кого догоняете.

Испытания: симуляция и реальность

Исследователи протестировали SPF в двух условиях.

Виртуальный мир

Сначала – симулятор DRL (Drone Racing League), где можно безопасно проверять тысячи сценариев. В этой виртуальной среде исследователи создали разные типы задач:

  • Простая навигация: «Лети к синему кубу».
  • Избегание препятствий: «Доберись до флага, но не столкнись с барьерами».
  • Длинные маршруты: «Сначала к дереву, потом к скамейке, затем к зданию».
  • Задачи с рассуждением: «Найди человека, которому нужна помощь» (дрон должен понять, что человек, лежащий на земле, вероятно, в ней нуждается).
  • Поиск невидимых объектов: цель изначально не в поле зрения, и дрон должен исследовать пространство.
  • Следование за движущимися целями.

Результаты? SPF достигла успешности в 93,9%. Это значит, что из 100 задач она корректно выполнила почти 94, не врезавшись ни во что и достигнув цели.

Сравните с конкурентами:

  • PIVOT (предыдущий лучший VLM-метод): 28,7%
  • TypeFly (система, где VLM генерирует текстовые команды): 0,9%

Разница почти в 65 процентных пунктов – это не улучшение, а квантовый скачок.

Реальные дроны

Симуляция – это хорошо, но реальный мир куда сложнее. Здесь непредсказуемое освещение, ветер, задержки связи, несовершенство камер. Исследователи взяли обычные дроны DJI Tello EDU (недорогие модели, которые студенты используют для учебных проектов) и запустили их в помещениях и на улице.

Задачи усложнили: разные условия освещения (яркий день, сумерки, искусственный свет), разная плотность препятствий, статичные и движущиеся объекты.

Результат: 92,7% успешности. Почти как в симуляции!

Для сравнения:

  • PIVOT в реальном мире: 23,5%
  • TypeFly: практически не справился.

Особенно впечатляет производительность в сложных категориях. В задачах с длинными маршрутами и необходимостью рассуждений SPF показала результат выше 90%, в то время как конкуренты едва преодолевали порог в 20%.

Почему это работает: анатомия успеха

Исследователи провели серию экспериментов, отключая разные компоненты системы, чтобы понять, что именно делает SPF такой эффективной.

Формат вывода решает всё

Они сравнили три варианта:

  1. VLM генерирует текстовые команды («вперёд 2 м, влево 1 м»).
  2. VLM выбирает из 8 заранее заданных направлений (вперёд, назад, влево и т. д.).
  3. SPF: VLM выдаёт 2D-координаты точки.

Третий вариант победил с огромным отрывом. Структурированная пространственная разметка оказалась в разы точнее любых текстовых приближений.

Универсальность под разные VLM

Они протестировали SPF с разными языковыми моделями: Gemini, GPT-4V, Claude, Llama. И знаете что? Все показали высокую успешность (от 85% до 94%). Это означает, что подход работает не из-за магии конкретной модели, а из-за правильной постановки задачи. Архитектура SPF – это как хороший переводчик, который работает с любым языком.

Адаптивность против фиксированности

Эксперимент с отключением адаптивного масштабирования шагов показал: без него дрон либо ползёт слишком медленно (с фиксированными короткими шагами), либо рискует врезаться (с фиксированными длинными). Адаптивный подход сократил время выполнения задач в 1,8 раза при той же успешности.

Встроенное обнаружение против специализированного

Некоторые системы используют отдельные детекторы объектов (например, YOLO) для избегания препятствий. SPF интегрирует эту задачу в VLM. Преимущества:

  • Меньшая задержка (не нужно запускать две модели параллельно).
  • Гибкость: можно обнаружить любой объект, который вы опишете словами, не ограничиваясь предобученными категориями.
  • Простота архитектуры.

Ограничения: когда магия не работает

Как и в любом исследовании, есть нюансы. Авторы честно их признают.

Ошибки восприятия

VLM могут ошибаться, особенно с мелкими или далёкими объектами. Если цель – маленький предмет на расстоянии 30 метров, камера дрона может не передать достаточно деталей, и модель промахнётся. Это не проблема архитектуры SPF, а скорее ограничение текущего поколения VLM и разрешения камер.

Чувствительность к формулировкам

Если инструкция сформулирована двусмысленно, модель может интерпретировать её неверно. «Лети к дереву» – к какому, если их десять? Человек понял бы из контекста, но VLM иногда теряется. Решение: более точные инструкции или дополнительный диалог с пользователем для уточнения.

Задержки вывода

VLM – это большие нейросети, и их ответ требует времени. В текущей реализации SPF обновляет план каждые 0,5 секунды. Для большинства задач этого достаточно, но в сценариях с быстро меняющейся обстановкой (например, при слежении за автомобилем на скорости) это может быть слишком медленно. Впрочем, с ростом производительности «железа» и оптимизацией моделей эта проблема со временем решится.

Почему это важно: взгляд в будущее

SPF – это не просто крутая исследовательская работа. Это доказательство концепции, которая меняет парадигму.

Демократизация дронов

Раньше создание автономного дрона для специфической задачи требовало:

  • Сбора датасета (тысячи часов полётов).
  • Обучения модели (дорогие GPU, недели вычислений).
  • Экспертизы в машинном обучении.

С SPF вам нужен обычный дрон с камерой, доступ к API VLM и несколько строк кода. Это как переход от написания сложных программ к разговору с ChatGPT: порог входа рухнул.

Новые применения

Представьте:

  • Дрон-помощник для пожарных: «Найди людей в здании и передай им это послание».
  • Дрон-фотограф: «Следуй за группой туристов и сними их на фоне храма Понынса».
  • Дрон-доставщик: «Отнеси эту посылку на балкон третьего этажа в здании с красной крышей».

Всё это – обычные человеческие инструкции, без программирования маршрутов.

Философский момент

Есть что-то глубокое в идее «покажи точку». Это возвращение к интуитивному взаимодействию с миром. Мы, люди, постоянно используем визуальное указание: показываем пальцем, кивком, взглядом. SPF переносит эту естественность в отношения «человек-машина».

Код – это поэзия, только на другом языке. И в случае SPF эта поэзия написана не строчками текста, а координатами в пространстве. Алгоритм не описывает мир словами, а видит его структуру. Нейросеть не генерирует команды, а показывает намерение.

Что дальше?

Исследователи уже работают над улучшениями:

  • Повышение точности восприятия через мультимодальные входы (например, добавление датчиков глубины).
  • Уменьшение задержек через дистилляцию больших VLM в компактные модели.
  • Разработка стратегий активного исследования (когда дрон сам решает, куда полететь, чтобы лучше изучить неизвестную среду).

Проект открытый, код доступен. Это значит, что любой может взять SPF, адаптировать под свою задачу и расширить его возможности.

В конечном счёте, SPF – это ещё один шаг к миру, где технологии понимают нас естественным образом. Где между намерением и действием исчезает барьер программирования. Где дрон – это не сложный гаджет, требующий руководства на 200 страниц, а партнёр, который понимает с полуслова.

Или, точнее, с полувзгляда. 👁️✨

Авторы оригинальной статьи : Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
GPT-5
Claude Sonnet 4.5
Gemini 2.5 Pro
Предыдущая статья Космический балет света: как гравитация планет-гигантов искривляет звёздные лучи на пути к Земле Следующая статья Когда генома слишком много: как мы научились слышать шёпот мутаций в симфонии рака

Статьи NeuraBooks рождаются
в диалоге человека и ИИ

Сервис GetAtom даст вам те же возможности: создавайте тексты, визуалы и аудио вместе с нейросетью – легко и вдохновляюще.

Создать свой контент

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Как научить робота делать всё что угодно – без единого урока

Представьте робота, который смотрит видео в интернете и учится на нём выполнять задачи – без инструкций и тренировок. Теперь это реальность.

Компьютерная наука

VChain: Когда ИИ учится видеть не кадры, а причины – как самба учит танцевать компьютер

Новый подход VChain учит видеогенераторы понимать логику событий через цепочку визуальных размышлений – как футболист предвидит траекторию мяча раньше удара.

Компьютерная наука

Как научить ИИ рисовать быстро: SD3.5-Flash делает искусственный интеллект доступным каждому

Новая модель SD3.5-Flash превращает медленные ИИ-художники в молниеносные творческие машины, которые работают даже на смартфонах.

Компьютерная наука

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться