Опубликовано

Как научить ИИ думать перед оценкой – и почему это меняет всё

Новые модели RRM учатся рассуждать перед выставлением оценки, как умный учитель, который объясняет каждую отметку – и работают точнее обычных судей на 15-20%.

Компьютерная наука
Phoenix 1.0
Автор: Доктор София Чен Время чтения: 6 – 8 минут

Инженерная глубина

91%

Примеры из поп-культуры

86%

Разбор алгоритмов

84%

Фокус на этике

78%
Оригинальное название: Reward Reasoning Model
Дата публикации статьи: 20 мая 2025

Представьте себе учителя, который ставит оценки молниеносно, не объясняя своих решений. А теперь другого – который сначала размышляет вслух: «Этот ответ показывает понимание основ, но пропускает важную деталь...» Кому бы вы больше доверили оценить работу? Очевидно, второму.

Именно такую революцию сейчас переживает мир оценки ИИ-систем. Исследователи создали модели, которые учат искусственный интеллект не просто выдавать оценку, а сначала размышлять – как опытный эксперт.

Проблема «быстрых судей» в мире ИИ

Большие языковые модели вроде GPT нуждаются в постоянной «корректировке курса». Как ребёнок, который учится говорить, они копируют наши слова, но не всегда понимают контекст. Поэтому их нужно направлять – показывать, какие ответы хорошие, а какие не очень.

Для этого создаются специальные модели-судьи, которые оценивают качество ответов. Но тут кроется загвоздка: большинство таких «судей» работают как автоматы. Получили два ответа – мгновенно выдали вердикт. Никаких размышлений, никаких объяснений.

Это напоминает ситуацию из «Пиратов Карибского моря», когда капитан Барбосса говорит о Кодексе пиратов: «Это скорее рекомендации, чем правила». Обычные модели-судьи следуют негласным «рекомендациям», не объясняя логику своих решений.

Reward Reasoning Models: ИИ, который думает вслух

Команда исследователей предложила революционный подход – Reward Reasoning Models (RRM). Представьте модель, которая работает как хороший преподаватель: сначала анализирует ответ, размышляет над его сильными и слабыми сторонами, а потом выносит обоснованное решение.

Ключевая особенность RRM в том, что они используют цепочку рассуждений (chain-of-thought). Это как внутренний монолог умного человека: «Хм, в первом ответе математика правильная, но объяснение неполное. А во втором – логика понятная, но есть фактическая ошибка...»

Самое интересное: эти модели научились размышлять сами, без специальных примеров! Их просто учили выбирать лучший ответ, а стратегии рассуждения они выработали в процессе обучения. Как дети, которые сами изобретают правила игры, играя в неё.

Как это работает на практике

Процесс работы RRM можно разбить на этапы:

Входные данные: Модель получает исходный вопрос и два варианта ответа.

Размышление: Вместо мгновенной оценки модель начинает «думать вслух» – анализирует каждый ответ, сравнивает их по разным критериям, взвешивает плюсы и минусы.

Финальное решение: После размышлений модель выдаёт окончательный вердикт в специальном формате – как в телешоу «Поле чудес», когда ведущий торжественно объявляет: «Правильный ответ – вариант А!»

Для обучения используется простая, но эффективная система поощрений: правильный выбор = плюс очко, неправильный = минус очко. Как в видеоигре, где за каждое верное действие начисляются баллы.

Стратегии для сравнения множества ответов

Когда нужно выбрать лучший ответ не из двух, а из десятков вариантов, RRM используют две хитрые стратегии:

ELO-система – как в шахматах или киберспорте. Каждый ответ сравнивается с каждым попарно, победы и поражения превращаются в рейтинг. В итоге получается ранжированный список от лучшего к худшему.

Турнир на выбывание – как в футбольном чемпионате мира. Ответы разбиваются на пары, проигравшие отсеиваются, победители проходят в следующий тур. Быстро и эффективно.

Дополнительно можно использовать «голосование большинства» – запустить оценку несколько раз и выбрать наиболее частый результат. Это как консилиум врачей: один может ошибиться, но если трое из пяти пришли к одному выводу, скорее всего, он правильный.

Впечатляющие результаты экспериментов

Исследователи протестировали RRM на двух наборах данных:

RewardBench – задачи с тонкими различиями между ответами, где нужен острый глаз эксперта.

PandaLM Test – субъективные оценки по понятности, точности и стилю изложения.

Результаты поражают: RRM-32B с голосованием показала точность до 98.6% на задачах, требующих глубокого анализа. Это как разница между начинающим и опытным редактором – опытный видит нюансы, которые ускользают от новичка.

По сравнению с обычными моделями-судьями (назовём их DirectJudge), RRM превосходят их на 15-20% в задачах, где важно рассуждение. Особенно заметна разница в математических задачах и вопросах, требующих креативного мышления.

Умные вычисления: думать настолько, насколько нужно

Одно из ключевых преимуществ RRM – адаптивное использование вычислительных ресурсов. Обычные модели тратят одинаковое количество «мозговых усилий» на простой вопрос «Сколько будет 2+2?» и сложную математическую задачу.

RRM же работают умнее. Простые случаи они решают быстро, а для сложных задач «включают турбо-режим» – генерируют более длинные цепочки рассуждений, проводят больше сравнений.

Это как опытный механик: простую проблему он диагностирует с первого взгляда, а для сложной поломки проведёт детальный анализ. Эффективность и качество в одном флаконе.

Влияние на обучение других моделей

RRM можно использовать не только как финальных судей, но и как «тренеров» для других языковых моделей. Процесс похож на работу опытного наставника, который не просто говорит «это неправильно», а объясняет почему.

Два основных подхода:

Reinforcement Learning (RL) – модель учится на неразмеченных данных, получая обратную связь от RRM в режиме реального времени.

Direct Preference Optimization (DPO) – более прямой метод, где RRM заранее размечает данные своими оценками, а модель учится на этих примерах.

Результаты впечатляют: модели, обученные с помощью RRM-32B, превосходят даже GPT-4o в некоторых задачах. Это как разница между учеником, которого учил средний преподаватель, и тем, кого тренировал мастер своего дела.

Анализ паттернов мышления

Исследователи проанализировали, как именно «думают» RRM, и обнаружили интересные особенности. По сравнению с обычными моделями, RRM чаще используют:

Переходы к альтернативным стратегиям«А что если посмотреть на это с другой стороны?»

Самопроверку«Подождите, а правильно ли я понял условие?»

Сравнительный анализ«В первом ответе есть это преимущество, но во втором лучше проработан тот момент...»

Это делает их рассуждения более похожими на человеческие, где мы постоянно сомневаемся, пересматриваем свои выводы и ищем альтернативные объяснения.

Масштабирование: больше размышлений = лучший результат

Одно из главных открытий – RRM можно масштабировать двумя способами:

Параллельное масштабирование: Больше сравнений = выше точность. Как консилиум экспертов: чем больше мнений, тем надёжнее результат.

Последовательное масштабирование: Более длинные размышления также повышают качество оценки. Это как разница между быстрым взглядом и тщательным анализом.

Исследователи показали, что оба подхода работают, и их можно комбинировать в зависимости от доступных ресурсов и требований к точности.

Что это означает для будущего ИИ

RRM представляют собой важный шаг к созданию более умных и объяснимых ИИ-систем. Как я всегда говорю: «ИИ – как ребёнок: он повторяет наши ошибки, но учится быстрее.» RRM показывают нам, что ИИ может научиться не только копировать наши ответы, но и наш процесс мышления.

Это особенно важно в контексте доверия к ИИ-системам. Когда модель может объяснить своё решение, показать ход мыслей, мы лучше понимаем её ограничения и можем более обоснованно полагаться на её выводы.

Практические применения уже сегодня

RRM уже сейчас можно использовать в реальных задачах:

Образование: Автоматическая оценка письменных работ с подробными комментариями.

Контент-модерация: Более точное определение нарушений с объяснением причин.

Техническая поддержка: Ранжирование ответов специалистов по качеству и полноте.

Разработка ИИ: Улучшение других языковых моделей через качественную обратную связь.

Исследователи уже выложили открытый код и предобученные модели, так что любой разработчик может попробовать эту технологию в своих проектах.

Взгляд в будущее

RRM – это только начало. Мы движемся к созданию ИИ-систем, которые не просто выдают ответы, но могут объяснить свой выбор, показать альтернативы, признать неуверенность там, где она уместна.

Это напоминает эволюцию от калькулятора к умному помощнику. Калькулятор просто выдаёт результат, а умный помощник может объяснить, как он к нему пришёл, почему выбрал именно такой подход, и что можно было бы сделать по-другому.

Хороший ИИ начинается с честного диалога о его границах. RRM делают этот диалог возможным, показывая нам не только что думает модель, но и как она к этому пришла. И это, возможно, самое важное достижение в развитии искусственного интеллекта за последнее время.

Авторы оригинальной статьи: Jiaxin Guo, Zewen Chi, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
GPT-4-turbo
Claude 3.7 Sonnet
Предыдущая статья Нейросжатие видео: когда алгоритмы учатся понимать время Следующая статья Как научить компьютер читать мысли нейронов?

НейроНаука

Вам может быть интересно

Перейти к статьям

Почему ИИ с интернетом не всегда умнее – и что об этом думают пользователи

Исследование 24 000 диалогов показало: пользователи доверяют ИИ с большим количеством ссылок, даже если они неточные – и это проблема.

Компьютерная наука

Как научить ИИ думать лучше, просто попросив его быть увереннее

Исследователи открыли способ улучшить логическое мышление ИИ без учителей – просто поощряя модель за уверенность в своих ответах.

Компьютерная наука

Как научить ИИ помнить: когда роботы забывают, где оставили ключи

Исследователи создали ИИ с «фотографической памятью» для 3D-пространств – теперь роботы могут помнить, что где лежит, даже покинув комнату.

Компьютерная наука

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ в нашем Telegram-канале!

Подписаться