Опубликовано 15 декабря 2025

Обобщение нейросетей: как ИИ учится и почему это сложнее, чем кажется

Обобщение обобщений: когда нейросети учатся предсказывать, но не то, что мы думали

Разбираемся, почему успех языковой модели на одном тесте вне обучения не гарантирует ей победу на другом – и что это значит для реального применения ИИ.

Компьютерная наука 10 – 14 минут чтения

Автор публикации: Доктор Ким Ли 10 – 14 минут чтения

Представьте: вы готовитесь к экзамену по математике, решая задачи из учебника. Приходите на экзамен – и там совсем другие задачи. Но вы справляетесь! Значит, вы действительно поняли математику, а не просто заучили примеры, верно?

А теперь представьте, что на следующем экзамене – по той же математике, но с задачами из реальной жизни – вы проваливаетесь. Вопрос: вы вообще понимали математику или просто научились решать определённый тип задач?

Именно с этой проблемой сталкиваются большие языковые модели. И именно об этом – новое исследование, которое задаёт неудобный вопрос: если нейросеть хорошо обобщает на одном типе новых данных, означает ли это, что она будет обобщать везде?

Спойлер: нет. И это серьёзная проблема.

Что такое обобщение и почему оно важнее, чем кажется

Когда мы говорим об обобщении в машинном обучении, мы имеем в виду способность модели работать с данными, которые она никогда раньше не видела. Это как разница между студентом, который зазубрил ответы на конкретные вопросы, и тем, кто действительно понял материал и может применить знания к любой ситуации.

В мире искусственного интеллекта это называется OOD-обобщением (out-of-distribution generalization) – способностью модели справляться с данными, которые отличаются от обучающих. И это не просто академическая забава. Когда вы выпускаете языковую модель в реальный мир, она сталкивается с самыми разными текстами: от формальных документов до сленга в социальных сетях, от научных статей до поэзии. Если модель не умеет обобщать – она бесполезна 🤷‍♀️

Но вот что интересно: большинство исследований проверяют обобщение только на одном тестовом наборе. Это как если бы вы проверяли навыки вождения человека только на парковке, а потом выпускали его на автостраду в час пик. Может сработать. А может – нет.

Нейросети и тесты на обобщение: история развития

Кошки-мышки с нейросетями: история тестов на обобщение

История развития тестов для языковых моделей напоминает бесконечную игру в догонялки. Создатели моделей думают: «Ага, наша модель справляется с этим датасетом на 95%! Мы победили!» А исследователи создают новый датасет – и модель снова проваливается.

Вот несколько примеров таких «ловушек»:

HANS – датасет, специально разработанный для выявления того, что модели используют примитивные эвристики вместо настоящего понимания. Например, если в предпосылке есть слово «не», модель может автоматически решить, что гипотеза ей противоречит, даже не анализируя смысл.

ANLI – датасет, собранный в несколько раундов, где каждый раунд специально нацелен на слабости моделей. Это как тренер, который постоянно находит новые способы проверить вашу выносливость 💪

Синтетические датасеты – искусственно созданные примеры, которые похожи на обучающие данные, но содержат хитрые изменения.

Каждый новый датасет показывает: модели научились справляться с конкретными тестами, но не обязательно научились понимать язык.

Эксперимент по проверке обобщения на нескольких датасетах

Эксперимент: а что, если проверить сразу на нескольких датасетах?

Исследователи решили провести простой, но важный эксперимент. Вместо того чтобы оценивать модель на одном OOD-датасете, они взяли сразу семь разных и отслеживали, как модель справляется с каждым из них на протяжении всего процесса дообучения.

Задача была классической: NLI (Natural Language Inference) – определение логических отношений между двумя предложениями. Даётся предпосылка и гипотеза, и модель должна сказать: следует ли гипотеза из предпосылки, противоречит ей или нейтральна.

Например:

Предпосылка: «Кот сидит на окне»
Гипотеза: «Животное находится в помещении»
Ответ: «Следует»

Или:

Предпосылка: «Все студенты сдали экзамен»
Гипотеза: «Некоторые студенты провалили экзамен»
Ответ: «Противоречит»

Звучит просто, но эта задача требует логического мышления и понимания контекста – именно поэтому её часто используют для проверки способности моделей к обобщению.

Какие модели тестировали?

В эксперименте участвовали два семейства языковых моделей:

OPT – открытые модели разных размеров, созданные компанией Meta
OLMo2 – современные модели, известные стабильностью при обучении

Модели дообучали на небольших наборах данных (всего 32, 64 или 128 примеров!) с использованием метода LoRA – эффективной техники, которая позволяет настраивать большие модели без полного переобучения всех параметров.

Датасеты: семь способов проверить обобщение

Обучение проводилось на стандартных датасетах SNLI (570 тысяч пар предложений, описывающих изображения) и MNLI (433 тысячи примеров из десяти разных жанров текстов).

А вот для проверки обобщения использовались семь разных датасетов:

Стандартные:

SciTail – научные вопросы и ответы
WNLI – задачи на разрешение кореференции (понимание, к чему относятся местоимения)
RTE – классический датасет текстовой импликации

Адверсариальные (созданные специально для выявления слабостей):

HANS – ловушки, основанные на простых эвристиках
PAWS – парафразные ловушки (предложения с похожими словами, но разным смыслом)
ANLI – продвинутый датасет с примерами, собранными в несколько раундов

Каждый датасет проверяет разные аспекты понимания языка. Если модель действительно научилась обобщать – она должна справиться со всеми. Если нет – мы увидим провалы.

Метод: как измерить «чистое» обобщение

Метод: как измерить «чистое» обобщение

Здесь начинается самое интересное. Проблема в том, что когда модель учится на обучающих данных, она одновременно улучшает два показателя:

Качество на тренировочных данных (это естественно)
Качество на OOD-данных (это и есть обобщение)

Но как понять, насколько хорошо модель на самом деле обобщает, а не просто становится лучше в целом?

Исследователи использовали умный трюк – частичную корреляцию. Работает это так:

Шаг 1: На каждом этапе обучения записывается качество модели на тренировочном наборе и на всех семи OOD-датасетах.

Шаг 2: Строится модель регрессии, которая предсказывает OOD-качество на основе тренировочного качества. По сути, это ответ на вопрос: «Если модель набрала X баллов на тренировке, какой балл мы ожидаем на OOD-тесте»?

Шаг 3: Вычисляются остатки – разница между реальным и ожидаемым качеством. Это и есть «чистое» обобщение, не связанное с общим улучшением модели.

Шаг 4: Измеряется корреляция между остатками разных OOD-датасетов.

Если два OOD-датасета измеряют одну и ту же способность к обобщению, их остатки должны коррелировать: когда модель лучше справляется с одним (выше ожидаемого), она должна лучше справляться и с другим.

Но если корреляции низкие или вообще отрицательные – это значит, что датасеты измеряют разные вещи, и успех на одном не гарантирует успеха на другом.

Результаты эксперимента: добро пожаловать в хаос

Результаты: добро пожаловать в хаос 🎭

Приготовьтесь: результаты оказались... неожиданными.

Открытие первое: модели обобщают, но избирательно

Хорошая новость: почти все модели продемонстрировали способность обобщать хотя бы на некоторых OOD-датасетах. То есть они не просто заучивали примеры, а действительно извлекали какие-то паттерны.

Плохая новость: ни одна модель не показала универсального обобщения. Например:

OPT-30B, обученная на MNLI, отлично справлялась с MNLI-тестом, но проваливалась на PAWS
OLMo2-32B в эксперименте с SNLI показывала сильный разнобой: на одних датасетах качество росло, на других – падало

Это как студент, который блестяще решает алгебраические задачи, но теряется при виде геометрии.

Открытие второе: обучение нестабильно

При анализе того, как менялось качество моделей в процессе дообучения, выяснилось:

OPT демонстрировала резкие колебания – качество на OOD-датасетах то росло, то падало, причём непредсказуемо. Это соответствует наблюдениям предыдущих исследований: дообучение может как улучшить обобщение, так и навредить ему.

OLMo2 обучалась гораздо стабильнее (что и ожидалось от этого семейства моделей), но даже у неё разные OOD-датасеты показывали разные тренды. Где-то качество росло, где-то оставалось на месте, а где-то снижалось.

Вывод: нельзя судить об общей способности модели к обобщению по одному тесту. Это всё равно что оценивать здоровье человека только по температуре тела.

Открытие третье (главное): корреляции – полный хаос

А вот здесь начинается действительно интересное. После того как исследователи устранили влияние общего улучшения модели и посмотрели на «чистые» корреляции между OOD-датасетами, картина оказалась ещё более запутанной.

Частичные корреляции между датасетами:

Не показывают никакой общей закономерности
Радикально меняются от модели к модели
Зависят от того, на каких данных обучалась модель
Могут быть положительными у одной модели и отрицательными – у другой

Конкретные примеры:

Два OOD-датасета могут сильно коррелировать (положительная связь) у модели OPT-13B, но демонстрировать отрицательную корреляцию у OLMo2-32B. То есть если первая модель улучшает обобщение на датасете A, она одновременно улучшает его на датасете B. А вторая модель, улучшая A, ухудшает B!

Размер модели тоже не спасает. Можно было бы предположить, что более крупные модели с большим числом параметров обобщают лучше и дают более согласованные результаты. Но данные этого не подтверждают: средние корреляции не растут с увеличением размера, а иногда даже становятся более отрицательными.

Что это означает на практике? Обобщение – это не универсальное свойство модели или задачи. Это уникальная комбинация конкретной модели, конкретного распределения данных и конкретного типа сдвига.

Почему важно обобщение нейросетей из лаборатории к реальному миру

Почему это важно: от лаборатории к реальному миру

Давайте вернёмся к аналогии с экзаменами. Представьте, что вы – компания, которая разрабатывает языковую модель для реального применения. Вы хотите, чтобы ваша модель хорошо работала с:

Официальными документами
Разговорной речью
Техническими текстами
Социальными сетями
Научными статьями
Новостями
Творческими текстами

Каждый из этих типов текстов – это свой OOD-сдвиг относительно обучающих данных. И вот что показывает исследование: успех вашей модели на документах не гарантирует успеха в социальных сетях. Более того, улучшение на одном типе текстов может даже ухудшить работу на другом!

Это похоже на то, как опытный водитель из Сеула может растеряться на горных дорогах Каннына – несмотря на отличные базовые навыки вождения. Дело не в самих навыках, а в специфике конкретной ситуации.

Что это значит для оценки моделей?

Текущая практика оценки моделей – использование одного-двух OOD-датасетов – явно недостаточна. Это как ставить диагноз пациенту, измерив только его вес и игнорируя давление, анализы крови, пульс и всё остальное.

Исследование показывает: для адекватной оценки обобщающей способности модели необходимо использовать множество OOD-тестов, покрывающих разные типы сдвигов. И даже это не гарантирует, что модель справится с совершенно новым типом данных, который вы не протестировали.

Техническая сторона: как это работало

Для тех, кто хочет понять детали эксперимента:

Pattern-based обучение

Исследователи использовали специальный формат обучения, который выглядит так:

{предпосылка} Вопрос: {гипотеза} Да или Нет?

Модель училась отвечать токенами «_Да» или «_Нет». Этот подход называется pattern-based fine-tuning и позволяет избежать проблем, связанных с добавлением новой классификационной головы к модели. Вместо этого используется та же языковая голова (LM-head), которая уже была обучена при предтренировке.

Почему это важно? Потому что добавление новых слоёв может привести к деградации признаков: модель может «забыть» то, чему научилась раньше, подстраиваясь под новую задачу. Pattern-based подход этого избегает.

Вычислительные ресурсы

Эксперимент требовал серьёзных вычислительных мощностей:

Использовались GPU разных типов (A5000, A6000, A100)
Общая стоимость – около 5500 GPU-часов
Модели обучались с разным количеством примеров (32, 64, 128), чтобы проверить влияние размера обучающей выборки

Это напоминает, что исследования в области ИИ требуют не только хороших идей, но и значительных ресурсов 💻

Обработка данных

Интересная деталь: исследователи удалили из всех датасетов примеры с нейтральной меткой (когда гипотеза ни следует из предпосылки, ни противоречит ей). Почему?

Потому что разные датасеты по-разному трактуют нейтральность. То, что считается нейтральным в SNLI, может интерпретироваться иначе в HANS. Удаление этих примеров сделало сравнение более честным и избавило от дополнительного источника шума в данных.

Что дальше: куда движется исследование обобщения

Это исследование открывает больше вопросов, чем даёт ответов. И это хорошо – именно так развивается наука.

Нерешённые вопросы

Почему корреляции такие разные? Что именно в архитектуре OPT или OLMo2 приводит к тому, что одни и те же датасеты ведут себя по-разному? Это может быть связано с процессом предтренировки, распределением данных, архитектурными особенностями или чем-то ещё.

Существуют ли универсальные принципы обобщения? Или каждая комбинация модели и задачи уникальна? Если второе – это серьёзная проблема для развертывания ИИ-систем.

Как предсказать, на каких OOD-данных модель справится? Можно ли, проанализировав модель, заранее сказать, где она будет обобщать хорошо, а где – плохо?

Практические выводы

Для разработчиков и исследователей это исследование означает:

Тестируйте на множестве датасетов. Один OOD-тест – это иллюзия безопасности. Вам нужен полный чекап, а не измерение только температуры.

Будьте скептичны к заявлениям об обобщении. Если статья или техническая документация заявляет, что модель «хорошо обобщает», спросите: на каких именно датасетах? Сколько их? Какие типы сдвигов они покрывают?

Готовьтесь к неожиданностям. Даже если ваша модель отлично работает на всех тестовых датасетах, реальный мир может преподнести сюрпризы. Мониторинг качества в продакшене – обязателен.

Используйте ансамбли подходов. Если одна модель хороша на одном типе данных, а другая – на другом, возможно, стоит комбинировать их или использовать разные модели для разных задач.

Заключение: обобщение как многогранный кристалл

Итак, обобщаются ли результаты обобщения? Нет.

Это не значит, что языковые модели не умеют обобщать – они умеют. Но обобщение – это не единое универсальное свойство, которое модель либо имеет, либо нет. Это сложная, многогранная способность, которая проявляется по-разному в зависимости от:

Архитектуры модели
Данных, на которых она обучалась
Типа сдвига в данных
Конкретной задачи

Представьте обобщение как многогранный кристалл: с одного угла он переливается всеми цветами радуги, с другого – кажется тусклым, а с третьего – вообще непрозрачным. И для каждой модели этот кристалл повёрнут по-своему.

Для сообщества исследователей машинного обучения это означает: нужны более сложные, комплексные методы оценки. Для компаний, внедряющих ИИ: нужно тщательное тестирование на максимально разнообразных данных. Для всех нас: нужна честность в отношении ограничений современных моделей.

Потому что код – это поэзия, только на другом языке. А хорошая поэзия требует понимания всех её оттенков, а не только первой строки 📚✨

#исследовательский обзор #методология #нейросети #машинное обучение #обучение ии #математика #бенчмарки ии #надежность ии

Источник: https://arxiv.org/abs/2512.07832v1

Оригинальное название: Do Generalisation Results Generalise?

Дата публикации статьи: 8 дек 2025

Авторы оригинальной статьи : Matteo Boglioni, Andrea Sgobbi, Gabriel Tavernini, Francesco Rita, Marius Mosbach, Tiago Pimentel

Доктор Ким Ли Открыть профиль

«Код – это поэзия, только на другом языке.»

Открыть профиль

Я исследовательница в области машинного обучения. Для меня алгоритмы – это не магия, а зеркало человеческого мышления.

Предыдущая статья Танец света в кристалле: как пары фотонов раскрывают тайны Вселенной Следующая статья Как мозг дышит во сне: симфония невидимых волн в коре

Обобщение нейросетей: как ИИ учится и почему это сложнее, чем кажется

Что такое обобщение и почему оно важнее, чем кажется

Нейросети и тесты на обобщение: история развития

Эксперимент по проверке обобщения на нескольких датасетах

Какие модели тестировали?

Датасеты: семь способов проверить обобщение

Метод: как измерить «чистое» обобщение

Результаты эксперимента: добро пожаловать в хаос

Открытие первое: модели обобщают, но избирательно

Открытие второе: обучение нестабильно

Открытие третье (главное): корреляции – полный хаос

Почему важно обобщение нейросетей из лаборатории к реальному миру

Что это значит для оценки моделей?

Техническая сторона: как это работало

Pattern-based обучение

Вычислительные ресурсы

Обработка данных

Что дальше: куда движется исследование обобщения

Нерешённые вопросы

Практические выводы

Заключение: обобщение как многогранный кристалл

Связанные публикации

Как научить ИИ думать лучше, просто попросив его быть увереннее

Когда данные играют в прятки: почему ИИ обманывается неполной информацией

Как научить ИИ смотреть кино как человек – новый тест MF² разоблачает роботов

От исследования к пониманию

Нейросети, участвовавшие в работе

1. Резюмирование исследования

2. Создание текста на основе резюме

3. Редакторская проверка

4. Подготовка описания для иллюстрации

5. Создание иллюстрации