Опубликовано 21 октября 2025

Как научить дрон понимать человеческую речь: от пикселя до полёта

Исследователи создали систему See, Point, Fly, которая позволяет дронам летать куда угодно по обычным словесным командам – без предварительного обучения и тонны данных.

Компьютерная наука 10 – 15 минут чтения
Автор публикации: Доктор Ким Ли 10 – 15 минут чтения

Представьте: вы говорите дрону «Лети к тому дереву за красной машиной» – и он просто летит. Не спрашивает координат, не требует программирования маршрута, не путается в препятствиях. Он видит мир своей камерой, понимает ваши слова и преобразует их в последовательность движений. Звучит как фантастика? Ещё недавно – да. Но команда исследователей создала систему See, Point, Fly (SPF), которая делает именно это. И что самое удивительное – ей не нужны месяцы обучения на специальных данных. 🚁

Почему дроны не понимали обычный язык

Проблема: когда дроны не понимают обычный язык

Беспилотники уже доставляют посылки, снимают кино и патрулируют территории. Но есть нюанс: большинство из них следует заранее запрограммированным маршрутам или управляется человеком с пульта. Попросить дрон «найти человека в синей куртке и следовать за ним» – задача, которая до недавнего времени казалась неподъёмной.

Почему? Потому что это требует трёх вещей одновременно:

  • Зрительного восприятия – дрон должен видеть мир и понимать, где на изображении дерево, а где – припаркованная машина.
  • Понимания языка – он должен разобрать вашу команду, даже если вы сформулировали её нечётко.
  • Планирования действий – он должен превратить всё это в конкретные движения: вперёд на два метра, влево, вверх.

Классический подход – это как учить ребёнка водить машину, показывая ему тысячи примеров: «Вот здесь мы поворачиваем налево, вот здесь тормозим». Учёные создавали огромные наборы данных с траекториями полётов, где каждое действие дрона было размечено вручную. Модель училась повторять эти паттерны. Проблема? Если дрон в процессе обучения видел только квартиры, он терялся на улице. Если учился летать днём – не справлялся вечером. Данных всегда было мало, а мир – слишком разнообразен.

Революция языковых моделей в управлении дронами

Революция: языковые модели научились видеть

В последние пару лет произошёл прорыв. Появились мультимодальные языковые модели – системы, которые понимают и текст, и изображения одновременно. Помните, как GPT-4V или Gemini могут посмотреть на фотографию и рассказать, что на ней происходит? Это и есть VLM – Vision-Language Models, модели «зрение-язык».

Эти модели обучались на огромных массивах интернет-данных: миллионы изображений с подписями, описания сцен, инструкции. Они видели всё: от селфи с котами до фотографий космоса. И научились не просто распознавать объекты, а рассуждать о них. Могут объяснить, почему на картинке человек выглядит грустным. Могут предложить, как добраться от точки А до точки Б на карте.

Естественная мысль: а что, если использовать эти модели для управления дронами? Пусть VLM смотрит на картинку с камеры, читает команду человека и говорит дрону, куда лететь!

Проблемы первых попыток управления дронами через ИИ

Но есть загвоздка

Первые попытки были наивными. Исследователи просто просили VLM генерировать текстовые команды вроде «вперёд на 2 метра» или «повернуть налево на 45 градусов». Представьте: нейросеть видит изображение, обрабатывает инструкцию «лети к дереву» и выдаёт ответ словами.

Это как просить друга, сидящего рядом в машине, подсказывать вам повороты, но он может сказать только: «Немного налево». Что значит «немного»? На 10 градусов? На 30? Или вообще на 90?

Проблемы были очевидными:

  • Набор команд был фиксированным и ограниченным.
  • Точность хромала – «примерно туда» это не инструкция для летательного аппарата.
  • VLM приходилось думать категориями «текст о действиях», а не визуальными координатами.

И вот здесь создатели SPF провернули гениальный трюк.

Идея управления дроном через указание точки на изображении

Ключевая идея: не говори, а покажи пальцем

Авторы SPF подумали: зачем заставлять модель описывать словами, куда лететь? Она же видит картинку! Пусть просто покажет на ней точку. Как если бы вы указали пальцем: «Вон туда».

Это кажется очевидным, но это всё меняет.

Вместо того чтобы генерировать текст «лети вперёд на 1,5 метра и немного влево», модель просто ставит точку на изображении: вот пиксель с координатами (320, 240). А дальше – чистая математика. Мы знаем параметры камеры дрона, знаем угол обзора. Значит, можем превратить точку на плоской картинке в трёхмерный вектор: насколько лететь вперёд, влево-вправо и вверх-вниз.

Это как разница между «скажи мне на словах, как пройти к метро» и «покажи на карте». Второе – конкретнее, точнее, понятнее.

Как работает система See Point Fly пошаговый разбор

Как это работает: пошаговый разбор

Давайте представим сценарий. Вы в сеульском парке Намсан, запускаете дрон и говорите: «Лети к скамейке у фонтана».

Шаг 1. Дрон смотрит на мир

Камера дрона передаёт изображение в систему SPF. На картинке – деревья, дорожки, люди, где-то вдали фонтан и рядом с ним скамейка.

Шаг 2. VLM анализирует сцену

Языковая модель получает два входных сигнала: изображение и вашу инструкцию. Она начинает рассуждать: «Окей, мне нужно найти скамейку. Вижу несколько. Но инструкция гласит „у фонтана». Вот фонтан, значит, нужна скамейка рядом с ним».

Шаг 3. Модель ставит точку

VLM не генерирует текст вроде «лети 3 метра на северо-северо-запад». Она выдаёт структурированный ответ: координаты пикселя (например, x=450, y=300) и примерную оценку глубины – насколько далеко этот объект. Глубина дискретная: «близко», «средне», «далеко».

Шаг 4. Преобразование в 3D-команду

Теперь математика. У нас есть точка на плоской картинке и оценка расстояния. Через внутренние параметры камеры (camera intrinsics), такие как фокусное расстояние и размер матрицы, мы пересчитываем это в трёхмерный вектор: «лети на 2,1 метра вперёд, на 0,3 метра вправо, высоту не меняй».

Шаг 5. Команды для моторов

Дрон – это не машинка на радиоуправлении, которую можно просто толкнуть в нужную сторону. У него четыре ротора (если это квадрокоптер), и нужно рассчитать скорость для каждого. Система SPF преобразует 3D-вектор в команды управления: крен (roll), тангаж (pitch) и тяга (thrust). Это как сказать дрону: «Наклонись немного вперёд, добавь мощности правым винтам, увеличь общую тягу».

Шаг 6. Дрон движется

Моторы включаются, дрон летит в указанном направлении. Но не просто летит и забывает! Это не одноразовая команда. Через мгновение (например, каждые 0,5 секунды) камера снова делает снимок, и весь цикл повторяется. Это называется замкнутый контур управления (closed-loop control). Как когда вы идёте к магазину: вы не просто запоминаете направление в начале пути, а постоянно смотрите по сторонам и корректируете маршрут.

Умные функции: плавный и безопасный полёт дрона

Умные детали: как сделать полёт плавным и безопасным

Создатели SPF продумали несколько важных фишек, которые превращают базовую идею в работающую систему.

Адаптивное расстояние шагов

Если дрон видит, что цель далеко и путь свободен, зачем ползти мелкими шажками? SPF умеет адаптивно менять размер шага. В открытом пространстве – длинные «прыжки», рядом с препятствиями – осторожные короткие движения. Это реализовано через нелинейную функцию, которая преобразует оценку глубины от модели в реальное расстояние полёта.

Формула выглядит примерно так (не пугайтесь):

actual_distance = base_distance × (1 + α × predicted_depth)

Где α – коэффициент, который настраивает «агрессивность». Результат? В экспериментах это ускорило выполнение задач почти в два раза без потери безопасности.

Избегание препятствий на лету

Вы не хотите, чтобы дрон врезался в дерево. SPF интегрирует простую систему обнаружения объектов прямо в процесс планирования. Перед тем как VLM выберет точку, система проверяет: «Эй, а не ведёт ли этот путь прямо в стену»?. Если да – модель пересматривает варианты, исключая опасные зоны.

Красота в том, что это не отдельный тяжеловесный детектор препятствий. Современные VLM умеют обнаруживать объекты сами – это называется обнаружением по открытому словарю (open-vocabulary detection). То есть можно попросить модель: «Покажи все препятствия на изображении», и она найдёт не только стандартные «машина, дерево, здание», но и любые другие объекты, которые вы назовёте словами.

Динамические цели

А что если цель движется? Например, задача: «Следуй за человеком в жёлтой куртке». Поскольку SPF работает в замкнутом контуре, постоянно обновляя наблюдения, она естественным образом справляется с этим. На каждом шаге модель заново оценивает положение цели. Человек пошёл влево – дрон скорректирует траекторию. Это как играть в салки: вы не просчитываете весь маршрут заранее, а реагируете на текущее положение того, кого догоняете.

Испытания системы SPF в симуляции и реальности

Испытания: симуляция и реальность

Исследователи протестировали SPF в двух условиях.

Виртуальный мир

Сначала – симулятор DRL (Drone Racing League), где можно безопасно проверять тысячи сценариев. В этой виртуальной среде исследователи создали разные типы задач:

  • Простая навигация: «Лети к синему кубу».
  • Избегание препятствий: «Доберись до флага, но не столкнись с барьерами».
  • Длинные маршруты: «Сначала к дереву, потом к скамейке, затем к зданию».
  • Задачи с рассуждением: «Найди человека, которому нужна помощь» (дрон должен понять, что человек, лежащий на земле, вероятно, в ней нуждается).
  • Поиск невидимых объектов: цель изначально не в поле зрения, и дрон должен исследовать пространство.
  • Следование за движущимися целями.

Результаты? SPF достигла успешности в 93,9%. Это значит, что из 100 задач она корректно выполнила почти 94, не врезавшись ни во что и достигнув цели.

Сравните с конкурентами:

  • PIVOT (предыдущий лучший VLM-метод): 28,7%
  • TypeFly (система, где VLM генерирует текстовые команды): 0,9%

Разница почти в 65 процентных пунктов – это не улучшение, а квантовый скачок.

Реальные дроны

Симуляция – это хорошо, но реальный мир куда сложнее. Здесь непредсказуемое освещение, ветер, задержки связи, несовершенство камер. Исследователи взяли обычные дроны DJI Tello EDU (недорогие модели, которые студенты используют для учебных проектов) и запустили их в помещениях и на улице.

Задачи усложнили: разные условия освещения (яркий день, сумерки, искусственный свет), разная плотность препятствий, статичные и движущиеся объекты.

Результат: 92,7% успешности. Почти как в симуляции!

Для сравнения:

  • PIVOT в реальном мире: 23,5%
  • TypeFly: практически не справился.

Особенно впечатляет производительность в сложных категориях. В задачах с длинными маршрутами и необходимостью рассуждений SPF показала результат выше 90%, в то время как конкуренты едва преодолевали порог в 20%.

Почему SPF эффективна анатомия успеха

Почему это работает: анатомия успеха

Исследователи провели серию экспериментов, отключая разные компоненты системы, чтобы понять, что именно делает SPF такой эффективной.

Формат вывода решает всё

Они сравнили три варианта:

  1. VLM генерирует текстовые команды («вперёд 2 м, влево 1 м»).
  2. VLM выбирает из 8 заранее заданных направлений (вперёд, назад, влево и т. д.).
  3. SPF: VLM выдаёт 2D-координаты точки.

Третий вариант победил с огромным отрывом. Структурированная пространственная разметка оказалась в разы точнее любых текстовых приближений.

Универсальность под разные VLM

Они протестировали SPF с разными языковыми моделями: Gemini, GPT-4V, Claude, Llama. И знаете что? Все показали высокую успешность (от 85% до 94%). Это означает, что подход работает не из-за магии конкретной модели, а из-за правильной постановки задачи. Архитектура SPF – это как хороший переводчик, который работает с любым языком.

Адаптивность против фиксированности

Эксперимент с отключением адаптивного масштабирования шагов показал: без него дрон либо ползёт слишком медленно (с фиксированными короткими шагами), либо рискует врезаться (с фиксированными длинными). Адаптивный подход сократил время выполнения задач в 1,8 раза при той же успешности.

Встроенное обнаружение против специализированного

Некоторые системы используют отдельные детекторы объектов (например, YOLO) для избегания препятствий. SPF интегрирует эту задачу в VLM. Преимущества:

  • Меньшая задержка (не нужно запускать две модели параллельно).
  • Гибкость: можно обнаружить любой объект, который вы опишете словами, не ограничиваясь предобученными категориями.
  • Простота архитектуры.

Ограничения системы SPF когда технология не работает

Ограничения: когда магия не работает

Как и в любом исследовании, есть нюансы. Авторы честно их признают.

Ошибки восприятия

VLM могут ошибаться, особенно с мелкими или далёкими объектами. Если цель – маленький предмет на расстоянии 30 метров, камера дрона может не передать достаточно деталей, и модель промахнётся. Это не проблема архитектуры SPF, а скорее ограничение текущего поколения VLM и разрешения камер.

Чувствительность к формулировкам

Если инструкция сформулирована двусмысленно, модель может интерпретировать её неверно. «Лети к дереву» – к какому, если их десять? Человек понял бы из контекста, но VLM иногда теряется. Решение: более точные инструкции или дополнительный диалог с пользователем для уточнения.

Задержки вывода

VLM – это большие нейросети, и их ответ требует времени. В текущей реализации SPF обновляет план каждые 0,5 секунды. Для большинства задач этого достаточно, но в сценариях с быстро меняющейся обстановкой (например, при слежении за автомобилем на скорости) это может быть слишком медленно. Впрочем, с ростом производительности «железа» и оптимизацией моделей эта проблема со временем решится.

Почему система SPF важна взгляд в будущее

Почему это важно: взгляд в будущее

SPF – это не просто крутая исследовательская работа. Это доказательство концепции, которая меняет парадигму.

Демократизация дронов

Раньше создание автономного дрона для специфической задачи требовало:

  • Сбора датасета (тысячи часов полётов).
  • Обучения модели (дорогие GPU, недели вычислений).
  • Экспертизы в машинном обучении.

С SPF вам нужен обычный дрон с камерой, доступ к API VLM и несколько строк кода. Это как переход от написания сложных программ к разговору с ChatGPT: порог входа рухнул.

Новые применения

Представьте:

  • Дрон-помощник для пожарных: «Найди людей в здании и передай им это послание».
  • Дрон-фотограф: «Следуй за группой туристов и сними их на фоне храма Понынса».
  • Дрон-доставщик: «Отнеси эту посылку на балкон третьего этажа в здании с красной крышей».

Всё это – обычные человеческие инструкции, без программирования маршрутов.

Философский момент

Есть что-то глубокое в идее «покажи точку». Это возвращение к интуитивному взаимодействию с миром. Мы, люди, постоянно используем визуальное указание: показываем пальцем, кивком, взглядом. SPF переносит эту естественность в отношения «человек-машина».

Код – это поэзия, только на другом языке. И в случае SPF эта поэзия написана не строчками текста, а координатами в пространстве. Алгоритм не описывает мир словами, а видит его структуру. Нейросеть не генерирует команды, а показывает намерение.

Что ожидать от развития технологии дронов

Что дальше?

Исследователи уже работают над улучшениями:

  • Повышение точности восприятия через мультимодальные входы (например, добавление датчиков глубины).
  • Уменьшение задержек через дистилляцию больших VLM в компактные модели.
  • Разработка стратегий активного исследования (когда дрон сам решает, куда полететь, чтобы лучше изучить неизвестную среду).

Проект открытый, код доступен. Это значит, что любой может взять SPF, адаптировать под свою задачу и расширить его возможности.

В конечном счёте, SPF – это ещё один шаг к миру, где технологии понимают нас естественным образом. Где между намерением и действием исчезает барьер программирования. Где дрон – это не сложный гаджет, требующий руководства на 200 страниц, а партнёр, который понимает с полуслова.

Или, точнее, с полувзгляда. 👁️✨

Оригинальное название: See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation
Дата публикации статьи: 26 сен 2025
Авторы оригинальной статьи : Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu
Предыдущая статья Космический балет света: как гравитация планет-гигантов искривляет звёздные лучи на пути к Земле Следующая статья Когда генома слишком много: как мы научились слышать шёпот мутаций в симфонии рака

Связанные публикации

Вам может быть интересно

Войти в Лабораторию

Исследование не заканчивается одним экспериментом. Ниже – публикации, которые развивают похожие методы, вопросы или концепции.

Сибирские инженеры научили ИИ создавать детальные снимки глубоких структур мозга из обычных МРТ-изображений, которые есть в любой клинике.

Доктор Алексей Петров 21 июл 2025

ИИ: События

Агент пишет CUDA-ядра: GPT и Claude научили генерировать код для GPU

Технический контекст Разработка

Два AI-агента умеют создавать оптимизированные CUDA-ядра для ускорения операций прямо по описанию задачи. Разбираемся, что это меняет для тех, кто работает с моделями.

Hugging Facehuggingface.co 13 фев 2026

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Образность

77%

Поп-культурные примеры

85%

Современность

92%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
GPT-5 OpenAI Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

GPT-5 OpenAI
2.
Claude Sonnet 4.5 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4.5 Anthropic
3.
Gemini 2.5 Pro Google DeepMind Редакторская проверка Исправление ошибок и уточнение выводов

3. Редакторская проверка

Исправление ошибок и уточнение выводов

Gemini 2.5 Pro Google DeepMind
4.
DeepSeek-V3 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

4. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3 DeepSeek
5.
Phoenix 1.0 Leonardo AI Создание иллюстрации Генерация изображения по подготовленному промпту

5. Создание иллюстрации

Генерация изображения по подготовленному промпту

Phoenix 1.0 Leonardo AI

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться