Опубликовано

Как научить робота не врезаться, когда он не знает, где находится: барьеры безопасности в мире неопределённости

Новый метод позволяет автономным системам оставаться в безопасности, даже когда датчики «врут», а истинное положение робота скрыто за облаком шума и неточностей.

Компьютерная наука
Автор публикации: Доктор Ким Ли Время чтения: 9 – 14 минут
«Когда я разбиралась с этим исследованием, меня зацепила одна мысль: мы так долго учили алгоритмы быть точными, что забыли научить их быть честными. Эти барьеры не про совершенство, а про умение признавать «я не знаю» и действовать соответственно. Интересно, сколько реальных катастроф можно было предотвратить, если бы автономные системы раньше научились говорить: «Я недостаточно уверен, чтобы рискнуть»?» – Доктор Ким Ли

Представьте, что вы ведёте машину в густом тумане. Вы не видите дорогу идеально – только размытые контуры, приблизительные расстояния. И вам нужно гарантировать, что вы не съедете в кювет. Как действовать? Можно ехать медленнее, держаться подальше от края, добавить запас прочности. Примерно так же работают автономные системы – дроны, роботы, беспилотники – когда их датчики зашумлены, а истинное состояние неизвестно. Только вместо тумана у них – неопределённость оценки состояния. И вместо интуиции водителя – математика.

Проблема: когда робот не знает, где он на самом деле

В идеальном мире робот точно знает своё положение, скорость, ориентацию. Нажал на кнопку – получил координаты с точностью до миллиметра. Но реальность жестока: GPS «врёт» на несколько метров, акселерометры дрейфуют, гироскопы накапливают ошибки. Датчики шумят, как старый телевизор без антенны. И робот вынужден работать не с истинным состоянием, а с его оценкой – размытой, вероятностной, неточной.

Это создаёт фундаментальную проблему для систем безопасности. Классические функции барьера управления – это как невидимый забор, который не даёт системе выйти за пределы безопасной зоны. Они работают отлично, если вы точно знаете, где находитесь. Но что, если ваша оценка положения может ошибаться на метр? На два? На десять? Тогда вы можете думать, что находитесь в безопасности, а на самом деле уже врезались в стену.

Более того, многие роботы живут не в привычном нам евклидовом пространстве с осями X, Y, Z. Квадрокоптер вращается в трёхмерном пространстве, его ориентация описывается группой вращений SO(3). Подводный аппарат движется и вращается одновременно – это уже группа жёстких преобразований SE(3). Эти математические объекты называются группами Ли, и на них обычная геометрия не работает. Нельзя просто взять и сложить два поворота как векторы. Нужны специальные инструменты.

Что такое функции барьера управления?

Функция барьера управления (CBF) – это математический страж безопасности. Представьте функцию b(x), которая положительна внутри безопасной зоны и отрицательна снаружи. Граница безопасности – это где b(x) = 0. Задача контроллера – подобрать управление так, чтобы b(x) всегда оставалась неотрицательной. Это как если бы у вас был датчик расстояния до края обрыва, и вы постоянно корректируете траекторию, чтобы показания датчика не упали до нуля.

В детерминированном мире это работает идеально. Но добавьте стохастичность – случайные толчки ветра, вибрации, непредсказуемые возмущения – и картина усложняется. Для стохастических систем придумали стохастические функции барьера управления (SCBF). Они используют оператор Ито – инструмент из стохастического анализа, который описывает, как меняются функции под действием случайных процессов. SCBF требует, чтобы среднее изменение функции барьера плюс её диффузия (разброс) удовлетворяли определённому условию. Грубо говоря: даже если система подбрасывается случайными силами, в среднем она должна двигаться в сторону безопасности.

Но и SCBF предполагают, что истинное состояние x известно. А если известна только оценка x̂ с ковариацией ошибки P? Вот тут и начинается новая история.

Расширенная функция барьера: учитываем туман неопределённости

Идея проста, как гений: раз мы не знаем истинное состояние точно, давайте сожмём безопасную зону. Чем больше неопределённость – тем дальше от края нужно держаться. Это как ехать в тумане: чем гуще туман, тем медленнее скорость и больше отступ от обочины.

Математически это выглядит так. Пусть b(x) – обычная функция барьера. Мы вводим модифицированную версию:

b_est(x̂, P) = b(x̂) − c·√(tr(P))

Здесь x̂ – оценка состояния, P – ковариационная матрица ошибки (она описывает, насколько мы не уверены в оценке), tr(P) – след матрицы (грубо говоря, суммарная неопределённость), а c – константа, определяющая, насколько консервативно мы себя ведём. Чем больше неопределённость, тем сильнее сжимается безопасная зона.

Это как в игре «Горячо-холодно»: если вы точно знаете, где находится цель, можете идти прямо к границе. Но если знаете только примерно – лучше остановиться пораньше, чтобы случайно не промахнуться.

Динамика неопределённости: ковариация тоже живёт своей жизнью

Проблема в том, что ковариация P не стоит на месте. Она меняется со временем: растёт из-за шума процесса (робот движется, и неопределённость накапливается) и уменьшается из-за измерений (датчики дают новую информацию). Эта динамика описывается фильтром Калмана для линейных систем или расширенным фильтром Калмана (EKF) для нелинейных.

Фильтр Калмана – это как умный ассистент, который постоянно обновляет вашу оценку положения робота. Он берёт предыдущую оценку, прогнозирует, где робот должен быть сейчас (с учётом управления), затем получает новое измерение от датчиков и комбинирует прогноз с измерением, взвешивая их по надёжности. Ковариация P – это как индикатор доверия: маленькая P означает «мы почти уверены», большая P – «мы понятия не имеем».

Ключевая идея: мы используем динамику P в нашей функции барьера. Когда применяем формулу Ито (стохастический аналог обычной производной) к b_est(x̂, P), появляются члены, зависящие от того, как меняется P. Это позволяет контроллеру адаптироваться: если неопределённость растёт, контроллер становится более осторожным. Если новое измерение уточнило положение (P уменьшилась), можно позволить себе чуть больше свободы.

Вероятностные гарантии: не абсолютная защита, но очень близко

В стохастическом мире нельзя гарантировать безопасность абсолютно. Всегда есть шанс, что невероятно маловероятное событие всё-таки случится: порыв ветра, сбой датчика, метеорит. Вместо этого мы гарантируем безопасность с высокой вероятностью. Например: «Вероятность того, что робот останется в безопасной зоне в течение следующих 10 секунд, не менее 99%».

Как это работает? Используем неравенства концентрации – мощные инструменты из теории вероятностей. Например, неравенство Чебышёва говорит: если случайная величина имеет среднее μ и дисперсию σ², то вероятность отклониться от среднего больше чем на k·σ не превышает 1/k². Переводя на наш язык: если оценка x̂ имеет ковариацию P, то истинное состояние x с высокой вероятностью находится внутри эллипсоида, определяемого P.

Мы связываем безопасность оценки (b_est(x̂, P) ≥ 0) с безопасностью истинного состояния (b(x) ≥ 0) через эти неравенства. Если мы держим оценку достаточно далеко от границы с учётом неопределённости, то истинное состояние с заданной вероятностью (скажем, 99% или 99.9%) тоже останется в безопасности.

Группы Ли: когда пространство изогнуто

Теперь самое интересное. Представьте, что ваш робот – это квадрокоптер. Его положение (X, Y, Z) – обычные координаты, тут всё понятно. Но его ориентация? Это матрица вращения 3×3, элемент группы SO(3). Нельзя просто взять две ориентации и сложить их. Нельзя умножить ориентацию на число. Пространство ориентаций – это искривлённое многообразие, где обычная евклидова геометрия не работает.

Аналогия: представьте, что вы идёте по поверхности сферы (скажем, по Земле). Если вы пройдёте на север 100 км, потом на восток 100 км, потом на юг 100 км и потом на запад 100 км, окажетесь ли вы в той же точке? На плоскости – да. На сфере – нет! Пространство искривлено, и обычные правила не работают.

Группы Ли – это многообразия с групповой структурой. SO(3) – это группа вращений в трёхмерном пространстве. SE(3) – группа жёстких преобразований (вращение плюс перенос). Для работы с ними используют специальные инструменты:

  • Алгебра Ли – касательное пространство к группе в единичном элементе. Это линейное пространство, где можно складывать и умножать на числа. Для SO(3) алгебра Ли so(3) – это кососимметричные матрицы 3×3, описывающие мгновенные вращения (угловые скорости).
  • Экспоненциальное отображение – переводит элементы алгебры Ли в группу. Грубо говоря, превращает угловую скорость в поворот.
  • Логарифмическое отображение – обратная операция, переводит элемент группы обратно в алгебру Ли.

Ковариация ошибки P на группах Ли определяется в касательном пространстве. Например, если истинная ориентация R, а оценка R̂, то ошибка e = log(R̂ᵀR) – это элемент алгебры Ли so(3), вектор длиной 3. Ковариация P – это матрица 3×3, описывающая неопределённость этого вектора ошибки.

Функции барьера на группах Ли формулируются с учётом геометрии. Например, для квадрокоптера можно определить барьер на основе того, насколько его ориентация отличается от желаемой. Или на основе того, чтобы определённый вектор (скажем, вектор тяги) не выходил за пределы конуса. Главное – функция должна быть гладкой и совместимой с групповой структурой.

Синтез контроллера: квадратичное программирование спешит на помощь

Как на практике найти управление, которое удовлетворяет условию безопасности? Используем квадратичное программирование (QP) – метод оптимизации, который решает задачи вида «минимизировать квадратичную функцию при линейных ограничениях». Это быстро и эффективно, решается за миллисекунды даже на борту робота.

Идея такая. Пусть у нас есть номинальный контроллер u₀ – он делает что-то полезное, например, ведёт робота к цели. Но u₀ может нарушить безопасность. Мы ищем управление u, которое минимально отличается от u₀, но удовлетворяет условию SCBF:

Минимизировать: ‖u − u₀‖²

При условии: L_f b_est(x̂, P, u) + ½L_g² b_est(x̂, P) + ∂b_est/∂P · Ṗ ≥ −α(b_est(x̂, P))

Здесь L_f и L_g – операторы Ито (дрейф и диффузия), Ṗ – скорость изменения ковариации (из фильтра Калмана), α – функция класса K (например, α(x) = c·x). Это линейное ограничение на u, и задача QP решается аналитически или численно.

Результат: контроллер, который старается следовать номинальному плану, но при необходимости корректирует управление, чтобы сохранить безопасность. Чем ближе к границе – тем сильнее коррекция. Чем больше неопределённость – тем консервативнее поведение.

Эксперимент 1: квадрокоптер в цилиндрической клетке

Представьте квадрокоптер, который должен летать внутри невидимого цилиндра – скажем, радиусом 5 метров и высотой от 0 до 10 метров. Его GPS «шумит» с точностью ±2 метра, IMU (инерциальный измерительный блок) накапливает дрейф. Квадрокоптер использует EKF для оценки положения и ориентации. Его состояние – элемент SE(3) (положение + ориентация).

Функция барьера состоит из двух частей:

  • Для высоты Z: b_z(z) = (z − z_min)(z_max − z). Положительна внутри диапазона [z_min, z_max], отрицательна снаружи.
  • Для радиуса: b_r(x, y) = R² − (x² + y²). Положительна внутри круга радиуса R, отрицательна снаружи.

Модифицированная функция барьера: b_mod(x̂, P) = min(b_z(ẑ), b_r(x̂, ŷ)) − c·√(tr(P_pos)), где P_pos – подматрица ковариации, соответствующая положению (3×3).

Результаты симуляции показали: без предложенного подхода квадрокоптер регулярно вылетал за границы цилиндра – около 15-20% траекторий нарушали безопасность. С SCBF, учитывающим неопределённость, нарушения происходили менее чем в 1% случаев, что соответствует заданному уровню вероятности δ = 0.01. Когда неопределённость росла (например, при потере сигнала GPS), контроллер автоматически становился более осторожным, замедляя движение и держась дальше от границ.

Эксперимент 2: роботизированная рука избегает столкновения

Двухзвенная роботизированная рука (как в старых сборочных линиях) должна двигаться к цели, но не врезаться в препятствие – скажем, в стол или ящик. Состояние руки – это два угла θ₁ и θ₂, пространство состояний – тор T² (представьте поверхность бублика). Углы измеряются с шумом, используется EKF для оценки.

Функция барьера: расстояние от конца руки до препятствия. Если d(θ) – расстояние, то b(θ) = d(θ) − d_safe, где d_safe – минимально допустимое расстояние. Модифицированная версия: b_mod(θ̂, P) = d(θ̂) − d_safe − c·√(tr(P)).

Без учёта неопределённости номинальный контроллер (просто идущий к цели) приводил к столкновению в 25% симуляций. С предложенным SCBF – столкновения исключены, рука автоматически замедляется и обходит препятствие с запасом, пропорциональным неопределённости оценки углов.

Почему это важно: от теории к реальному миру

Классические методы управления часто предполагают идеальную информацию. Это как проектировать мост, считая, что ветра не существует. В лаборатории работает отлично, в реальности – катастрофа. Предложенный подход приближает теорию к практике, явно моделируя неопределённость и адаптируясь к ней.

Ключевые преимущества:

  • Честность насчёт неопределённости: Не игнорируем шум датчиков, а встраиваем его в систему безопасности.
  • Адаптивность: Контроллер автоматически становится консервативнее при росте неопределённости и агрессивнее при её снижении.
  • Вероятностные гарантии: Не обещаем невозможное («робот никогда не врежется»), а даём честную оценку («вероятность столкновения менее 1%»).
  • Универсальность: Работает как в евклидовом пространстве (положение), так и на группах Ли (ориентация), что критично для сложных роботов.
  • Вычислительная эффективность: Задачи QP решаются быстро, алгоритм работает в реальном времени.

Ограничения и будущие направления

Не всё идеально. Подход опирается на фильтр Калмана (или EKF), который предполагает гауссовские распределения. Если реальное распределение ошибки далеко от гауссовского (например, мультимодальное – робот может быть в одном из двух мест, но не знает в каком), гарантии ослабевают. Решение – использовать более продвинутые фильтры: нескольких гипотез, частичные фильтры, вариационные методы.

Другая проблема: что если модель динамики неточна? Скажем, квадрокоптер несёт груз, масса которого неизвестна. Это добавляет параметрическую неопределённость поверх стохастической. Перспективное направление – комбинировать SCBF с методами надёжного управления или адаптивного управления, которые оценивают неизвестные параметры на лету.

Ещё интересный вызов – мультиагентные системы. Представьте рой дронов: каждый имеет свою зашумлённую оценку положения, и им нужно избежать столкновений друг с другом. Неопределённость становится коллективной, и гарантии безопасности должны учитывать корреляции между оценками разных агентов. Это открывает путь к распределённым SCBF, где каждый агент локально синтезирует управление, обмениваясь с соседями информацией о своей неопределённости.

Заключение: безопасность как непрерывный диалог с неопределённостью

В конечном счёте, безопасность автономных систем – это не жёсткая стена, которую либо пробили, либо нет. Это непрерывный процесс оценки риска и адаптации поведения. Стохастические функции барьера управления с учётом оценки состояния – это способ формализовать этот диалог между роботом и неопределённостью мира вокруг него.

Робот не притворяется всезнающим. Он честно признаёт: «Я не уверен, где нахожусь, с точностью до двух метров». И исходя из этого, адаптирует своё поведение. Чем больше туман неопределённости, тем осторожнее шаги. Чем яснее картина, тем свободнее движения. Это не магия – это математика, которая наконец-то научилась работать с реальным, несовершенным миром.

И, возможно, это самое важное: мы перестаём требовать от роботов невозможного (абсолютного знания) и начинаем давать им инструменты для работы с тем, что они реально имеют – вероятностными оценками, зашумлёнными датчиками, приблизительными моделями. В этом смысле стохастические барьеры – это не просто технический трюк. Это философия управления, которая признаёт неопределённость не врагом, а неизбежным спутником, с которым можно и нужно научиться жить.

Код действительно может быть поэзией. Особенно когда он помогает роботам танцевать на грани между риском и безопасностью, не падая в пропасть.

Оригинальное название: Stochastic Control Barrier Functions under State Estimation: From Euclidean Space to Lie Groups
Дата публикации статьи: 22 янв 2026
Авторы оригинальной статьи : Ruoyu Lin, Magnus Egerstedt
Предыдущая статья Стержни света: как магнитные бури внутри нейтронных звёзд меняют танец сверхтекучести Следующая статья Геномная мозаика: как научить компьютер различать родственные души среди миллиардов букв жизни

От исследования к пониманию

Как создавался этот текст

Этот материал основан на реальном научном исследовании, а не сгенерирован «с нуля». В начале работы нейросети анализируют исходную публикацию: её цели, методы и выводы. Затем автор формирует связный текст, который сохраняет научный смысл, но переводит его из академического формата в ясное и читаемое изложение – без формул, но без потери точности.

Креативность

87%

Динамичность

88%

Современность

92%

Нейросети, участвовавшие в работе

Мы показываем, какие модели использовались на каждом этапе – от анализа исследования до редакторской проверки и создания иллюстрации. Каждая нейросеть выполняет свою роль: одни работают с источником, другие – с формулировками и структурой, третьи – с визуальным образом. Это позволяет сохранить прозрачность процесса и доверие к результату.

1.
Gemini 2.5 Flash Google DeepMind Резюмирование исследования Выделение ключевых идей и результатов

1. Резюмирование исследования

Выделение ключевых идей и результатов

Gemini 2.5 Flash Google DeepMind
2.
Claude Sonnet 4.5 Anthropic Создание текста на основе резюме Преобразование резюме в связное объяснение

2. Создание текста на основе резюме

Преобразование резюме в связное объяснение

Claude Sonnet 4.5 Anthropic
3.
Gemini 2.5 Flash Google DeepMind Редакторская проверка Исправление ошибок и уточнение выводов

3. Редакторская проверка

Исправление ошибок и уточнение выводов

Gemini 2.5 Flash Google DeepMind
4.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

4. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
5.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

5. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Лаборатория

Вам может быть интересно

Войти в Лабораторию

Здесь собраны материалы из «Лаборатории», которые продолжают разговор: смежные исследования, близкие методы или идеи, помогающие глубже понять тему.

Компьютерная наука

Исследователи научили языковую модель находить лучшие решения в науке не через предварительную подготовку, а через обучение прямо в процессе работы над конкретной задачей.

Компьютерная наука

Федеративное обучение позволяет совместно обучать ИИ без обмена данными, но требует баланса между скоростью передачи и конфиденциальностью – CEPAM решает обе задачи одновременно.

Компьютерная наука

Бразильский инженер объясняет, как новая модель DARC позволяет управлять ритмом ударных через битбокс, не теряя музыкальную гармонию – словно дирижировать самбой жестами.

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться