Опубликовано

Обобщение обобщений: когда нейросети учатся предсказывать, но не то, что мы думали

Разбираемся, почему успех языковой модели на одном тесте вне обучения не гарантирует ей победу на другом – и что это значит для реального применения ИИ.

Компьютерная наука
DeepSeek-V3
FLUX.2 Pro
Автор: Доктор Ким Ли Время чтения: 10 – 14 минут

Этическая рефлексия

79%

Динамичность

88%

Поп-культурные примеры

85%
Оригинальное название: Do Generalisation Results Generalise?
Дата публикации статьи: 8 дек 2025

Представьте: вы готовитесь к экзамену по математике, решая задачи из учебника. Приходите на экзамен – и там совсем другие задачи. Но вы справляетесь! Значит, вы действительно поняли математику, а не просто заучили примеры, верно?

А теперь представьте, что на следующем экзамене – по той же математике, но с задачами из реальной жизни – вы проваливаетесь. Вопрос: вы вообще понимали математику или просто научились решать определённый тип задач?

Именно с этой проблемой сталкиваются большие языковые модели. И именно об этом – новое исследование, которое задаёт неудобный вопрос: если нейросеть хорошо обобщает на одном типе новых данных, означает ли это, что она будет обобщать везде?

Спойлер: нет. И это серьёзная проблема.

Что такое обобщение и почему оно важнее, чем кажется

Когда мы говорим об обобщении в машинном обучении, мы имеем в виду способность модели работать с данными, которые она никогда раньше не видела. Это как разница между студентом, который зазубрил ответы на конкретные вопросы, и тем, кто действительно понял материал и может применить знания к любой ситуации.

В мире искусственного интеллекта это называется OOD-обобщением (out-of-distribution generalization) – способностью модели справляться с данными, которые отличаются от обучающих. И это не просто академическая забава. Когда вы выпускаете языковую модель в реальный мир, она сталкивается с самыми разными текстами: от формальных документов до сленга в социальных сетях, от научных статей до поэзии. Если модель не умеет обобщать – она бесполезна 🤷‍♀️

Но вот что интересно: большинство исследований проверяют обобщение только на одном тестовом наборе. Это как если бы вы проверяли навыки вождения человека только на парковке, а потом выпускали его на автостраду в час пик. Может сработать. А может – нет.

Кошки-мышки с нейросетями: история тестов на обобщение

История развития тестов для языковых моделей напоминает бесконечную игру в догонялки. Создатели моделей думают: «Ага, наша модель справляется с этим датасетом на 95%! Мы победили!» А исследователи создают новый датасет – и модель снова проваливается.

Вот несколько примеров таких «ловушек»:

HANS – датасет, специально разработанный для выявления того, что модели используют примитивные эвристики вместо настоящего понимания. Например, если в предпосылке есть слово «не», модель может автоматически решить, что гипотеза ей противоречит, даже не анализируя смысл.

ANLI – датасет, собранный в несколько раундов, где каждый раунд специально нацелен на слабости моделей. Это как тренер, который постоянно находит новые способы проверить вашу выносливость 💪

Синтетические датасеты – искусственно созданные примеры, которые похожи на обучающие данные, но содержат хитрые изменения.

Каждый новый датасет показывает: модели научились справляться с конкретными тестами, но не обязательно научились понимать язык.

Эксперимент: а что, если проверить сразу на нескольких датасетах?

Исследователи решили провести простой, но важный эксперимент. Вместо того чтобы оценивать модель на одном OOD-датасете, они взяли сразу семь разных и отслеживали, как модель справляется с каждым из них на протяжении всего процесса дообучения.

Задача была классической: NLI (Natural Language Inference) – определение логических отношений между двумя предложениями. Даётся предпосылка и гипотеза, и модель должна сказать: следует ли гипотеза из предпосылки, противоречит ей или нейтральна.

Например:

  • Предпосылка: «Кот сидит на окне»
  • Гипотеза: «Животное находится в помещении»
  • Ответ: «Следует»

Или:

  • Предпосылка: «Все студенты сдали экзамен»
  • Гипотеза: «Некоторые студенты провалили экзамен»
  • Ответ: «Противоречит»

Звучит просто, но эта задача требует логического мышления и понимания контекста – именно поэтому её часто используют для проверки способности моделей к обобщению.

Какие модели тестировали?

В эксперименте участвовали два семейства языковых моделей:

OPT – открытые модели разных размеров, созданные компанией Meta
OLMo2 – современные модели, известные стабильностью при обучении

Модели дообучали на небольших наборах данных (всего 32, 64 или 128 примеров!) с использованием метода LoRA – эффективной техники, которая позволяет настраивать большие модели без полного переобучения всех параметров.

Датасеты: семь способов проверить обобщение

Обучение проводилось на стандартных датасетах SNLI (570 тысяч пар предложений, описывающих изображения) и MNLI (433 тысячи примеров из десяти разных жанров текстов).

А вот для проверки обобщения использовались семь разных датасетов:

Стандартные:

  • SciTail – научные вопросы и ответы
  • WNLI – задачи на разрешение кореференции (понимание, к чему относятся местоимения)
  • RTE – классический датасет текстовой импликации

Адверсариальные (созданные специально для выявления слабостей):

  • HANS – ловушки, основанные на простых эвристиках
  • PAWS – парафразные ловушки (предложения с похожими словами, но разным смыслом)
  • ANLI – продвинутый датасет с примерами, собранными в несколько раундов

Каждый датасет проверяет разные аспекты понимания языка. Если модель действительно научилась обобщать – она должна справиться со всеми. Если нет – мы увидим провалы.

Метод: как измерить «чистое» обобщение

Здесь начинается самое интересное. Проблема в том, что когда модель учится на обучающих данных, она одновременно улучшает два показателя:

  1. Качество на тренировочных данных (это естественно)
  2. Качество на OOD-данных (это и есть обобщение)

Но как понять, насколько хорошо модель на самом деле обобщает, а не просто становится лучше в целом?

Исследователи использовали умный трюк – частичную корреляцию. Работает это так:

Шаг 1: На каждом этапе обучения записывается качество модели на тренировочном наборе и на всех семи OOD-датасетах.

Шаг 2: Строится модель регрессии, которая предсказывает OOD-качество на основе тренировочного качества. По сути, это ответ на вопрос: «Если модель набрала X баллов на тренировке, какой балл мы ожидаем на OOD-тесте»?

Шаг 3: Вычисляются остатки – разница между реальным и ожидаемым качеством. Это и есть «чистое» обобщение, не связанное с общим улучшением модели.

Шаг 4: Измеряется корреляция между остатками разных OOD-датасетов.

Если два OOD-датасета измеряют одну и ту же способность к обобщению, их остатки должны коррелировать: когда модель лучше справляется с одним (выше ожидаемого), она должна лучше справляться и с другим.

Но если корреляции низкие или вообще отрицательные – это значит, что датасеты измеряют разные вещи, и успех на одном не гарантирует успеха на другом.

Результаты: добро пожаловать в хаос 🎭

Приготовьтесь: результаты оказались... неожиданными.

Открытие первое: модели обобщают, но избирательно

Хорошая новость: почти все модели продемонстрировали способность обобщать хотя бы на некоторых OOD-датасетах. То есть они не просто заучивали примеры, а действительно извлекали какие-то паттерны.

Плохая новость: ни одна модель не показала универсального обобщения. Например:

  • OPT-30B, обученная на MNLI, отлично справлялась с MNLI-тестом, но проваливалась на PAWS
  • OLMo2-32B в эксперименте с SNLI показывала сильный разнобой: на одних датасетах качество росло, на других – падало

Это как студент, который блестяще решает алгебраические задачи, но теряется при виде геометрии.

Открытие второе: обучение нестабильно

При анализе того, как менялось качество моделей в процессе дообучения, выяснилось:

OPT демонстрировала резкие колебания – качество на OOD-датасетах то росло, то падало, причём непредсказуемо. Это соответствует наблюдениям предыдущих исследований: дообучение может как улучшить обобщение, так и навредить ему.

OLMo2 обучалась гораздо стабильнее (что и ожидалось от этого семейства моделей), но даже у неё разные OOD-датасеты показывали разные тренды. Где-то качество росло, где-то оставалось на месте, а где-то снижалось.

Вывод: нельзя судить об общей способности модели к обобщению по одному тесту. Это всё равно что оценивать здоровье человека только по температуре тела.

Открытие третье (главное): корреляции – полный хаос

А вот здесь начинается действительно интересное. После того как исследователи устранили влияние общего улучшения модели и посмотрели на «чистые» корреляции между OOD-датасетами, картина оказалась ещё более запутанной.

Частичные корреляции между датасетами:

  • Не показывают никакой общей закономерности
  • Радикально меняются от модели к модели
  • Зависят от того, на каких данных обучалась модель
  • Могут быть положительными у одной модели и отрицательными – у другой

Конкретные примеры:

Два OOD-датасета могут сильно коррелировать (положительная связь) у модели OPT-13B, но демонстрировать отрицательную корреляцию у OLMo2-32B. То есть если первая модель улучшает обобщение на датасете A, она одновременно улучшает его на датасете B. А вторая модель, улучшая A, ухудшает B!

Размер модели тоже не спасает. Можно было бы предположить, что более крупные модели с большим числом параметров обобщают лучше и дают более согласованные результаты. Но данные этого не подтверждают: средние корреляции не растут с увеличением размера, а иногда даже становятся более отрицательными.

Что это означает на практике? Обобщение – это не универсальное свойство модели или задачи. Это уникальная комбинация конкретной модели, конкретного распределения данных и конкретного типа сдвига.

Почему это важно: от лаборатории к реальному миру

Давайте вернёмся к аналогии с экзаменами. Представьте, что вы – компания, которая разрабатывает языковую модель для реального применения. Вы хотите, чтобы ваша модель хорошо работала с:

  • Официальными документами
  • Разговорной речью
  • Техническими текстами
  • Социальными сетями
  • Научными статьями
  • Новостями
  • Творческими текстами

Каждый из этих типов текстов – это свой OOD-сдвиг относительно обучающих данных. И вот что показывает исследование: успех вашей модели на документах не гарантирует успеха в социальных сетях. Более того, улучшение на одном типе текстов может даже ухудшить работу на другом!

Это похоже на то, как опытный водитель из Сеула может растеряться на горных дорогах Каннына – несмотря на отличные базовые навыки вождения. Дело не в самих навыках, а в специфике конкретной ситуации.

Что это значит для оценки моделей?

Текущая практика оценки моделей – использование одного-двух OOD-датасетов – явно недостаточна. Это как ставить диагноз пациенту, измерив только его вес и игнорируя давление, анализы крови, пульс и всё остальное.

Исследование показывает: для адекватной оценки обобщающей способности модели необходимо использовать множество OOD-тестов, покрывающих разные типы сдвигов. И даже это не гарантирует, что модель справится с совершенно новым типом данных, который вы не протестировали.

Техническая сторона: как это работало

Для тех, кто хочет понять детали эксперимента:

Pattern-based обучение

Исследователи использовали специальный формат обучения, который выглядит так:

{предпосылка} Вопрос: {гипотеза} Да или Нет? 

Модель училась отвечать токенами «_Да» или «_Нет». Этот подход называется pattern-based fine-tuning и позволяет избежать проблем, связанных с добавлением новой классификационной головы к модели. Вместо этого используется та же языковая голова (LM-head), которая уже была обучена при предтренировке.

Почему это важно? Потому что добавление новых слоёв может привести к деградации признаков: модель может «забыть» то, чему научилась раньше, подстраиваясь под новую задачу. Pattern-based подход этого избегает.

Вычислительные ресурсы

Эксперимент требовал серьёзных вычислительных мощностей:

  • Использовались GPU разных типов (A5000, A6000, A100)
  • Общая стоимость – около 5500 GPU-часов
  • Модели обучались с разным количеством примеров (32, 64, 128), чтобы проверить влияние размера обучающей выборки

Это напоминает, что исследования в области ИИ требуют не только хороших идей, но и значительных ресурсов 💻

Обработка данных

Интересная деталь: исследователи удалили из всех датасетов примеры с нейтральной меткой (когда гипотеза ни следует из предпосылки, ни противоречит ей). Почему?

Потому что разные датасеты по-разному трактуют нейтральность. То, что считается нейтральным в SNLI, может интерпретироваться иначе в HANS. Удаление этих примеров сделало сравнение более честным и избавило от дополнительного источника шума в данных.

Что дальше: куда движется исследование обобщения

Это исследование открывает больше вопросов, чем даёт ответов. И это хорошо – именно так развивается наука.

Нерешённые вопросы

Почему корреляции такие разные? Что именно в архитектуре OPT или OLMo2 приводит к тому, что одни и те же датасеты ведут себя по-разному? Это может быть связано с процессом предтренировки, распределением данных, архитектурными особенностями или чем-то ещё.

Существуют ли универсальные принципы обобщения? Или каждая комбинация модели и задачи уникальна? Если второе – это серьёзная проблема для развертывания ИИ-систем.

Как предсказать, на каких OOD-данных модель справится? Можно ли, проанализировав модель, заранее сказать, где она будет обобщать хорошо, а где – плохо?

Практические выводы

Для разработчиков и исследователей это исследование означает:

Тестируйте на множестве датасетов. Один OOD-тест – это иллюзия безопасности. Вам нужен полный чекап, а не измерение только температуры.

Будьте скептичны к заявлениям об обобщении. Если статья или техническая документация заявляет, что модель «хорошо обобщает», спросите: на каких именно датасетах? Сколько их? Какие типы сдвигов они покрывают?

Готовьтесь к неожиданностям. Даже если ваша модель отлично работает на всех тестовых датасетах, реальный мир может преподнести сюрпризы. Мониторинг качества в продакшене – обязателен.

Используйте ансамбли подходов. Если одна модель хороша на одном типе данных, а другая – на другом, возможно, стоит комбинировать их или использовать разные модели для разных задач.

Заключение: обобщение как многогранный кристалл

Итак, обобщаются ли результаты обобщения? Нет.

Это не значит, что языковые модели не умеют обобщать – они умеют. Но обобщение – это не единое универсальное свойство, которое модель либо имеет, либо нет. Это сложная, многогранная способность, которая проявляется по-разному в зависимости от:

  • Архитектуры модели
  • Данных, на которых она обучалась
  • Типа сдвига в данных
  • Конкретной задачи

Представьте обобщение как многогранный кристалл: с одного угла он переливается всеми цветами радуги, с другого – кажется тусклым, а с третьего – вообще непрозрачным. И для каждой модели этот кристалл повёрнут по-своему.

Для сообщества исследователей машинного обучения это означает: нужны более сложные, комплексные методы оценки. Для компаний, внедряющих ИИ: нужно тщательное тестирование на максимально разнообразных данных. Для всех нас: нужна честность в отношении ограничений современных моделей.

Потому что код – это поэзия, только на другом языке. А хорошая поэзия требует понимания всех её оттенков, а не только первой строки 📚✨

Авторы оригинальной статьи : Matteo Boglioni, Andrea Sgobbi, Gabriel Tavernini, Francesco Rita, Marius Mosbach, Tiago Pimentel
arxiv.org
GPT-5.1
Claude Sonnet 4.5
GPT-5.1
Предыдущая статья Танец света в кристалле: как пары фотонов раскрывают тайны Вселенной Следующая статья Как мозг дышит во сне: симфония невидимых волн в коре

Хотите писать статьи
вместе с нейросетью?

GetAtom поможет: тексты, визуалы, озвучка и видео – всё в одном месте. Нейросети становятся инструментом, а не заменой.

Попробовать

+ получить в подарок
100 атомов за регистрацию

Лаборатория

Вам может быть интересно

Перейти к статьям

Компьютерная наука

Как обмануть ИИ‑рецензента: скрытые команды в научных статьях работают (но не на всех языках)

Исследователи проверили, можно ли манипулировать ИИ‑рецензентом научных статей с помощью скрытых команд на разных языках – и результаты оказались тревожными.

Компьютерная наука

Танцуя с хаосом: как случайные уравнения учат машины понимать время

Представьте, что нейросеть учится у времени танцевать самбу — не запоминая каждый шаг, а улавливая ритм. Именно так работают случайные дифференциальные уравнения.

Компьютерная наука

Как научить робота делать всё что угодно – без единого урока

Представьте робота, который смотрит видео в интернете и учится на нём выполнять задачи – без инструкций и тренировок. Теперь это реальность.

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться