Опубликовано

Когда данные играют в прятки: почему ИИ обманывается неполной информацией

Искусственный интеллект может ошибаться в оценке важности данных, когда часть информации систематически отсутствует – разбираемся, как это исправить.

Математика и статистика
Phoenix 1.0
Автор: Профессор Ларс Нильсен Время чтения: 5 – 7 минут

Интуитивная математика

92%

Связь с реальностью

85%

Минимум формул

79%

 Междисциплинарность

74%
Оригинальное название: ICYM2I: The illusion of multimodal informativeness under missingness
Дата публикации статьи: 22 мая 2025

Представьте, что вы врач и решаете, стоит ли делать пациенту дорогостоящее МРТ в дополнение к обычному рентгену. У вас есть данные о тысячах случаев, где МРТ помогало поставить более точный диагноз. Но есть одна проблема: МРТ делали в основном тем пациентам, у которых рентген уже показал что-то подозрительное.

Получается парадокс – данные говорят, что МРТ очень полезно, но только потому, что мы видим лишь часть картины. Это классический пример того, как неполные данные могут обмануть даже самые умные алгоритмы машинного обучения.

Великая иллюзия мультимодального ИИ

В мире искусственного интеллекта есть красивая идея: объединить разные типы данных – изображения, тексты, звуки, показатели датчиков – чтобы получить более точные предсказания. Это называется мультимодальным обучением, и оно действительно работает потрясающе... в идеальном мире.

В реальности данные никогда не бывают полными. Камеры ломаются, пациенты не приходят на повторные обследования, дорогие анализы назначают не всем. И тут начинается самое интересное: алгоритм учится на искажённой выборке, но мы этого не замечаем.

Данные не лгут, но они могут молчать о самом важном.

Три способа, как данные исчезают

Математики выделяют три типа «пропажи» данных, и понимание разницы между ними критически важно:

Случайные пропуски – когда данные теряются совершенно случайно. Представьте, что каждый сотый рентгеновский снимок случайно не сохраняется из-за сбоя сервера. Такие пропуски не искажают общую картину.

Зависимые пропуски – когда отсутствие данных связано с тем, что мы уже знаем. Например, дорогие анализы чаще назначают пожилым пациентам. Здесь искажение есть, но его можно учесть.

Скрытые пропуски – самый коварный тип. Данные отсутствуют по причинам, которые мы не видим в наших записях. Например, если врачи интуитивно не назначают определённые исследования пациентам, которые кажутся им «безнадёжными».

Большинство реальных ситуаций попадает во вторую или третьу категорию, но алгоритмы часто обучают так, словно все пропуски случайны.

ICYM2I: новый взгляд на неполную информацию

Группа исследователей предложила элегантное решение под названием ICYM2I (расшифровывается как «In Case You Multimodal Missed It»«На случай, если ты пропустил мультимодальность»).

Основная идея проста: вместо того чтобы игнорировать неполноту данных, давайте учтём её явно. Каждому образцу в наборе данных присваивается вес, обратно пропорциональный вероятности его наблюдения. Редкие, «трудно наблюдаемые» случаи получают больший вес, компенсируя искажение выборки.

Это похоже на социологические опросы, где ответы людей взвешивают по возрасту, полу и региону, чтобы получить репрезентативную картину всего населения.

Разложение информации по полочкам

Чтобы понять, какой вклад вносит каждый тип данных, исследователи используют математический подход, называемый «декомпозиция частичной информации». Звучит сложно, но идея интуитивна.

Представьте, что у вас есть два источника информации – скажем, результаты анализа крови и симптомы пациента. Общую информативность можно разложить на части:

  • Что нам говорит только анализ крови
  • Что нам говорят только симптомы
  • Что мы узнаём только при совместном рассмотрении обоих источников
  • Информация, которая дублируется в обоих источниках

ICYM2I корректирует оценку всех этих компонентов, учитывая систематические пропуски в данных.

Проверка на практике

Исследователи проверили свой метод на медицинских данных, сравнивая информативность электрокардиограммы (ЭКГ) и рентгеновских снимков грудной клетки для диагностики структурных заболеваний сердца.

Без коррекции рентгеновские снимки казались довольно полезным дополнением к ЭКГ. Но после применения ICYM2I выяснилось, что их вклад значительно меньше – большинство полезной информации уже содержится в ЭКГ.

Это имеет практическое значение: зачем подвергать пациентов дополнительному облучению и тратить ресурсы системы здравоохранения, если рентген не добавляет существенной диагностической ценности?

Когда интуиция подводит врачей

Особенно интересный эксперимент исследователи провели с логическими функциями AND, OR и XOR. Эти простые операции помогают понять, как неполные данные искажают оценку информативности.

Для функции AND (результат истинен, только если истинны оба входа) алгоритм без коррекции переоценивал важность каждой переменной по отдельности. Для XOR (результат истинен, если истинен только один из входов) наоборот – недооценивал.

В медицине такие искажения могут приводить к неверным клиническим решениям. Врач может полагаться на менее информативный, но более доступный анализ, игнорируя действительно важные, но редко проводимые исследования.

Цифровое неравенство в медицине

У метода ICYM2I есть и социальный аспект. Неполнота медицинских данных часто связана с экономическим неравенством – не все пациенты имеют равный доступ к современным методам диагностики.

Если алгоритм обучается в основном на данных пациентов с хорошей страховкой, его рекомендации могут быть неприменимы для менее обеспеченных групп населения. ICYM2I помогает выявить и частично скорректировать такие смещения.

Ограничения реального мира

Как и любой математический метод, ICYM2I не панацея. Он работает при условии, что мы можем объяснить причины отсутствия данных на основе информации, которая у нас есть. Если данные пропадают по совершенно неизвестным причинам, коррекция может оказаться неточной.

Кроме того, текущая версия метода ограничена работой с двумя типами данных одновременно. В мире, где медицинские решения принимаются на основе десятков различных показателей, это серьёзное ограничение.

Урок для практиков

Главный урок этого исследования выходит далеко за рамки технических деталей машинного обучения. Он касается фундamentального вопроса: как мы принимаем решения в условиях неопределённости?

Часто мы оцениваем важность информации, основываясь только на тех случаях, где эта информация доступна. Но что если её отсутствие само по себе несёт информацию? Что если самые важные случаи – именно те, о которых мы меньше всего знаем?

ICYM2I предлагает систематический способ учесть эту «скрытую информацию». В медицине это может означать более точные диагнозы и экономию ресурсов. В других областях – от финансов до маркетинга – аналогичные принципы могут помочь избежать дорогостоящих ошибок.

Взгляд в будущее

Искусственный интеллект становится всё более влиятельным в принятии решений, влияющих на жизни людей. Поэтому критически важно понимать, когда и почему он может ошибаться.

Неполные данные – это не просто техническая проблема, которую нужно решить. Это зеркало, отражающее неравенства и ограничения нашего мира. Методы вроде ICYM2I помогают нам увидеть эти искажения и принимать более взвешенные решения.

В конце концов, самая опасная ложь – это та, в которую мы верим, потому что она подтверждается данными. А самая ценная истина – та, которую можно увидеть только научившись слышать молчание цифр.

Помните: данные – это не истина в последней инстанции, а лишь фрагменты мозаики. И иногда самые важные кусочки – именно те, которых не хватает.

Авторы оригинальной статьи: Young Sang Choi, Vincent Jeanselme, Pierre Elias, Shalmali Joshi
GPT-4-turbo
Claude 4 Sonnet
Предыдущая статья Как искусственный интеллект помогает переиграть малярию: виртуальные люди против реальных комаров Следующая статья Почему мы покупаем то, что не собирались, и возвращаем то, что хотели?

НейроНаука

Вам может быть интересно

Перейти к статьям

Как геометрия помогает понять формы в пространстве – и почему это важнее, чем кажется

Исследование того, как математики измеряют и сравнивают объёмы сложных фигур, открывает новые способы понимания пространства вокруг нас.

Математика и статистика

Как найти самые важные связи в данных, не анализируя каждую

Новый математический метод позволяет находить ключевые элементы в сложных системах данных, минуя трудоёмкий анализ всех связей – от генов до финансов.

Математика и статистика

Когда искусственный интеллект подводит статистику: почему больше данных не всегда лучше

Исследователи доказали, что популярный метод улучшения статистических оценок с помощью ИИ-предсказаний работает хуже классики при малых выборках.

Математика и статистика

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ в нашем Telegram-канале!

Подписаться