Опубликовано

Когда искусственный интеллект подводит статистику: почему больше данных не всегда лучше

Исследователи доказали, что популярный метод улучшения статистических оценок с помощью ИИ-предсказаний работает хуже классики при малых выборках.

Математика и статистика
Leonardo Phoenix 1.0
Автор: Профессор Ларс Нильсен Время чтения: 3 – 5 минут

 Междисциплинарность

82%

Минимум формул

79%

Педагогический талант

90%
Оригинальное название: No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference
Дата публикации статьи: 26 мая 2025

Представьте: у вас есть 50 тщательно проверенных медицинских анализов и 5000 результатов, полученных новым ИИ-диагностом. Интуитивно кажется – объедините их, и получите более точный результат. Но математика говорит: не спешите. Иногда эти 5000 «помощников» могут сделать ваши выводы хуже, чем если бы вы довольствовались только проверенными данными.

История одного «бесплатного обеда»

В мире статистики есть красивая идея под названием PPI++ (Prediction-Powered Inference). Суть проста: берём небольшую порцию качественных данных, добавляем много предсказаний от ИИ-модели, умно их комбинируем – и получаем более точную оценку среднего значения.

Долгое время считалось, что такой подход работает как «бесплатный обед» – в худшем случае результат будет не хуже классического метода, который использует только проверенные данные. Асимптотически – то есть при стремлении размера выборки к бесконечности – это действительно так.

Но реальная жизнь не асимптотическая. У нас есть конкретные 50, 100 или 200 образцов. И здесь начинается самое интересное.

Математика конечных выборок

Недавнее исследование показало: при малых размерах размеченной выборки PPI++ может работать хуже классического подхода. Это происходит из-за фундаментального компромисса.

С одной стороны, если предсказания ИИ коррелируют с реальными значениями, мы получаем дополнительную информацию. С другой – нам приходится тратить часть наших драгоценных размеченных данных на то, чтобы оценить, насколько хороши эти предсказания. При малых выборках эта «плата за оценку качества» может перевесить выигрыш.

Критическая корреляция

Для гауссовских данных математики вывели простую формулу. Предсказания ИИ должны коррелировать с реальными значениями не слабее, чем 1/√(n-2), где n – количество размеченных примеров.

Что это означает на практике?

  • При 10 размеченных образцах нужна корреляция минимум 0,35
  • При 50 образцах – минимум 0,14
  • При 200 образцах – достаточно 0,07

Если корреляция слабее этого порога, классический метод даст более точный результат.

Два варианта – два компромисса

Исследователи рассмотрели два способа применения PPI++:

Вариант с разбиением выборки делит размеченные данные пополам: одну часть использует для оценки качества ИИ-предсказаний, другую – для финальных вычислений. Метод честный и несмещённый, но при малых выборках «съедает» слишком много данных на служебные нужды.

Одновыборочный вариант использует одни и те же данные и для оценки качества предсказаний, и для итоговых расчётов. Работает лучше при малых n, но создаёт смещение и может давать ложную уверенность в результатах – доверительные интервалы получаются уже, чем должны быть.

Реальные данные подтверждают теорию

Исследователи проверили свои выводы на данных проекта Alphafold – системы предсказания структуры белков от DeepMind. Результаты полностью подтвердили теоретические выкладки:

При высокой корреляции между предсказаниями и реальными значениями PPI++ начинает превосходить классический метод только с 20-30 размеченных образцов. При слабой корреляции выигрыша нет вообще, сколько данных ни добавляй.

Практические выводы

Эта история – отличная иллюстрация того, почему в статистике нет универсальных решений. Каждый метод имеет свою область применения, и «работает асимптотически» не означает «работает всегда».

Если вы работаете с ИИ-предсказаниями и небольшими выборками:

Сначала оцените качество предсказаний. Посчитайте корреляцию между предсказаниями и реальными значениями на доступных размеченных данных.

Проверьте критический порог. Если корреляция меньше 1/√(n-2), лучше довериться классическому методу.

Учитывайте тип задачи. Для задач, где точность критична (медицина, финансы), смещение одновыборочного варианта может быть неприемлемым.

Планируйте сбор данных. Если предсказания качественные, но размеченной выборки мало, стоит инвестировать в дополнительную разметку – выигрыш от PPI++ растёт с увеличением n.

Мораль для эпохи ИИ

Мы живём в время, когда искусственный интеллект генерирует огромные объёмы предсказаний. Соблазн использовать их все понятен – кажется, что больше информации всегда лучше. Но математика напоминает: качество важнее количества, а методы, работающие «в пределе», могут подводить в реальности.

Как говорил один мой коллега: «Данные не лгут, но они умеют шептать на языке, который нужно учиться слышать». В случае с PPI++ этот шёпот говорит нам: прежде чем доверять ИИ-помощнику, убедитесь, что у вас достаточно данных, чтобы оценить, насколько хорошо он справляется со своей работой.

В конце концов, в статистике, как и в жизни, бесплатного обеда не бывает. За каждое улучшение приходится платить – вопрос лишь в том, стоит ли игра свеч.

Авторы оригинальной статьи : Pranav Mani, Peng Xu, Zachary C. Lipton, Michael Oberst
GPT-4-turbo
Claude Sonnet 4
Предыдущая статья Как «прочитать» молекулярные рукопожатия: новая эра предсказания белковых связей Следующая статья Почему ваша пенсия может оказаться галлюцинацией, или Как не проиграть игру в рулетку на 40 лет вперёд

Хотите научиться создавать тексты
так же, как мы?

Попробуйте инструменты GetAtom – нейросети для генерации статей, изображений и видео, которые становятся настоящими соавторами.

Попробовать

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Когда математика рисует на эллипсе: как приручить безграничные

Представьте, что высокомерные данные – это дикий зверь, а математики нашли способ его укротить, заперев в геометрическую клетку в форме эллипсоида.

Математика и статистика

Нейронные сети не умеют хранить секреты – или всё-таки умеют?

Исследователи доказали, что «атаки памяти» на нейросети работают только при наличии подсказок – без них модели становятся неприступными крепостями.

Математика и статистика

Когда радиоволны играют в прятки: архитектура безопасности в мире направленных антенн

Представьте беспроводную связь как симфонию световых лучей, где каждый сигнал должен найти своего адресата, минуя незваных слушателей.

Математика и статистика

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться