Опубликовано 1 июля 2025

Почему ИИ может ухудшить статистику: когда больше данных не лучше

Когда искусственный интеллект подводит статистику: почему больше данных не всегда лучше

Исследователи доказали, что популярный метод улучшения статистических оценок с помощью ИИ-предсказаний работает хуже классики при малых выборках.

Математика и статистика 3 – 5 минут чтения

Автор публикации: Профессор Ларс Нильсен 3 – 5 минут чтения

Представьте: у вас есть 50 тщательно проверенных медицинских анализов и 5000 результатов, полученных новым ИИ-диагностом. Интуитивно кажется – объедините их, и получите более точный результат. Но математика говорит: не спешите. Иногда эти 5000 «помощников» могут сделать ваши выводы хуже, чем если бы вы довольствовались только проверенными данными.

История концепции "бесплатного обеда" в статистике с ИИ

История одного «бесплатного обеда»

В мире статистики есть красивая идея под названием PPI++ (Prediction-Powered Inference). Суть проста: берём небольшую порцию качественных данных, добавляем много предсказаний от ИИ-модели, умно их комбинируем – и получаем более точную оценку среднего значения.

Долгое время считалось, что такой подход работает как «бесплатный обед» – в худшем случае результат будет не хуже классического метода, который использует только проверенные данные. Асимптотически – то есть при стремлении размера выборки к бесконечности – это действительно так.

Но реальная жизнь не асимптотическая. У нас есть конкретные 50, 100 или 200 образцов. И здесь начинается самое интересное.

Математика работы с конечными выборками данных

Математика конечных выборок

Недавнее исследование показало: при малых размерах размеченной выборки PPI++ может работать хуже классического подхода. Это происходит из-за фундаментального компромисса.

С одной стороны, если предсказания ИИ коррелируют с реальными значениями, мы получаем дополнительную информацию. С другой – нам приходится тратить часть наших драгоценных размеченных данных на то, чтобы оценить, насколько хороши эти предсказания. При малых выборках эта «плата за оценку качества» может перевесить выигрыш.

Критическая корреляция

Для гауссовских данных математики вывели простую формулу. Предсказания ИИ должны коррелировать с реальными значениями не слабее, чем 1/√(n-2), где n – количество размеченных примеров.

Что это означает на практике?

При 10 размеченных образцах нужна корреляция минимум 0,35
При 50 образцах – минимум 0,14
При 200 образцах – достаточно 0,07

Если корреляция слабее этого порога, классический метод даст более точный результат.

Два подхода к применению PPI++: плюсы и минусы

Два варианта – два компромисса

Исследователи рассмотрели два способа применения PPI++:

Вариант с разбиением выборки делит размеченные данные пополам: одну часть использует для оценки качества ИИ-предсказаний, другую – для финальных вычислений. Метод честный и несмещённый, но при малых выборках «съедает» слишком много данных на служебные нужды.

Одновыборочный вариант использует одни и те же данные и для оценки качества предсказаний, и для итоговых расчётов. Работает лучше при малых n, но создаёт смещение и может давать ложную уверенность в результатах – доверительные интервалы получаются уже, чем должны быть.

Как реальные данные Alphafold подтверждают теорию PPI++

Реальные данные подтверждают теорию

Исследователи проверили свои выводы на данных проекта Alphafold – системы предсказания структуры белков от DeepMind. Результаты полностью подтвердили теоретические выкладки:

При высокой корреляции между предсказаниями и реальными значениями PPI++ начинает превосходить классический метод только с 20-30 размеченных образцов. При слабой корреляции выигрыша нет вообще, сколько данных ни добавляй.

Практические рекомендации по работе с ИИ и малыми выборками

Практические выводы

Эта история – отличная иллюстрация того, почему в статистике нет универсальных решений. Каждый метод имеет свою область применения, и «работает асимптотически» не означает «работает всегда».

Если вы работаете с ИИ-предсказаниями и небольшими выборками:

Сначала оцените качество предсказаний. Посчитайте корреляцию между предсказаниями и реальными значениями на доступных размеченных данных.

Проверьте критический порог. Если корреляция меньше 1/√(n-2), лучше довериться классическому методу.

Учитывайте тип задачи. Для задач, где точность критична (медицина, финансы), смещение одновыборочного варианта может быть неприемлемым.

Планируйте сбор данных. Если предсказания качественные, но размеченной выборки мало, стоит инвестировать в дополнительную разметку – выигрыш от PPI++ растёт с увеличением n.

Выводы для применения ИИ в данных: качество важнее количества информации

Мораль для эпохи ИИ

Мы живём в время, когда искусственный интеллект генерирует огромные объёмы предсказаний. Соблазн использовать их все понятен – кажется, что больше информации всегда лучше. Но математика напоминает: качество важнее количества, а методы, работающие «в пределе», могут подводить в реальности.

Как говорил один мой коллега: «Данные не лгут, но они умеют шептать на языке, который нужно учиться слышать». В случае с PPI++ этот шёпот говорит нам: прежде чем доверять ИИ-помощнику, убедитесь, что у вас достаточно данных, чтобы оценить, насколько хорошо он справляется со своей работой.

В конце концов, в статистике, как и в жизни, бесплатного обеда не бывает. За каждое улучшение приходится платить – вопрос лишь в том, стоит ли игра свеч.

#аналитика #методология #машинное обучение #этика ии #математика #данные #надежность ии

Источник: https://arxiv.org/abs/2505.20178v1

Оригинальное название: No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference

Дата публикации статьи: 26 мая 2025

Авторы оригинальной статьи : Pranav Mani, Peng Xu, Zachary C. Lipton, Michael Oberst

Профессор Ларс Нильсен Открыть профиль

«Данные не лгут. Но они умеют шептать на языке, который нужно учиться слышать.»

Открыть профиль

Я Ларс – математик, который считает, что числа понятны всем, если говорить с людьми, а не над ними. Верю, что хороший график убедительнее сотни уравнений.

Предыдущая статья Как «прочитать» молекулярные рукопожатия: новая эра предсказания белковых связей Следующая статья Почему ваша пенсия может оказаться галлюцинацией, или Как не проиграть игру в рулетку на 40 лет вперёд

Почему ИИ может ухудшить статистику: когда больше данных не лучше

История концепции "бесплатного обеда" в статистике с ИИ

Математика работы с конечными выборками данных

Критическая корреляция

Два подхода к применению PPI++: плюсы и минусы

Как реальные данные Alphafold подтверждают теорию PPI++

Практические рекомендации по работе с ИИ и малыми выборками

Выводы для применения ИИ в данных: качество важнее количества информации

Связанные публикации

Когда данные играют в прятки: почему ИИ обманывается неполной информацией

Как графы помогают найти скрытые связи в данных – новый способ поиска закономерностей

Почему экономисты играют в рулетку с данными? История о том, как математика победила случай

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Создание иллюстрации