Когда большая языковая модель отвечает на вопрос, кто-то должен решить – хороший это ответ или нет. В промышленных системах эту роль всё чаще берут на себя специальные модели-оценщики, которые называют reward models (буквально – «модели вознаграждения»). Они обучены отличать удачные ответы от неудачных и помогают основной модели становиться лучше в процессе дообучения.
Звучит просто, но на практике есть несколько неудобных ограничений. Во-первых, большинство таких оценщиков обучены преимущественно на английском языке. Во-вторых, они, как правило, привязаны к конкретному набору критериев – то есть заранее прописанным правилам: что считать хорошим ответом, а что плохим. Поменяй задачу – придётся менять или переобучать оценщика.
Именно эти два ограничения попытались снять исследователи, представившие модель MR3 на конференции ICLR.
Что такое MR3 и в чём её особенность
MR3 – это модель-оценщик нового типа. Её полное название расшифровывается как Multilingual Rubric-Agnostic Reward Reasoning Model, то есть многоязычная модель оценки, не зависящая от заранее заданных критериев.
Разберём по частям, что это означает.
Многоязычность. По охвату языков MR3 превосходит всё, что существовало в этой области до неё. Проще говоря, модель умеет оценивать ответы не только на английском, но и на десятках других языков – что критически важно для систем, работающих с многоязычной аудиторией.
Независимость от критериев. Большинство оценщиков работают по принципу рубрики: есть список правил, и ответ проверяется по каждому из них. MR3 устроена иначе – она способна выносить оценку, опираясь на контекст задачи, без необходимости заранее прописывать, что именно считается правильным. Это делает её более универсальной: одну и ту же модель можно применять в самых разных сценариях без перенастройки.
Рассуждение как часть оценки. Слово reasoning в названии – не просто украшение. Модель не выдаёт оценку напрямую, а сначала выстраивает цепочку рассуждений: почему один ответ лучше другого, какие у него сильные и слабые стороны. Это делает оценку более прозрачной и, как правило, более надёжной.
Зачем это нужно – и кому
Чтобы понять практическую ценность MR3, полезно вспомнить, как устроен процесс улучшения языковых моделей.
Современные большие модели обучаются не только на текстах из интернета, но и с помощью обратной связи – когда система учится на оценках своих же ответов. Этот подход называют обучением с подкреплением на основе обратной связи от человека (RLHF) или его автоматизированными вариантами. Модель-оценщик здесь играет роль судьи: она смотрит на ответ и говорит, насколько он хорош.
Если оценщик работает только на одном языке, качество дообучения на других языках неизбежно страдает. Это особенно болезненно для компаний и команд, которые строят продукты для разноязычной аудитории.
Кроме того, если оценщик жёстко привязан к конкретным критериям, его приходится переобучать каждый раз, когда меняется задача. MR3 снимает это ограничение: он способен адаптироваться к новым условиям оценки без переобучения.
Что это значит для индустрии
Работа с MR3 была представлена на ICLR – одной из ведущих конференций в области машинного обучения. Это само по себе говорит об определённом уровне научной состоятельности подхода.
Для исследователей и команд, занимающихся разработкой многоязычных систем, MR3 предлагает интересную альтернативу текущим решениям. Вместо того чтобы держать отдельные оценщики для разных языков или задач, можно использовать одну модель – более гибкую и широкую по охвату.
Это особенно актуально на фоне того, что языковые модели всё активнее выходят за пределы английского языка. Спрос на инструменты оценки качества, которые работают так же хорошо на испанском, арабском или хинди, как и на английском, – вполне реальный и растущий.
Что пока остаётся открытым
Как и у большинства исследовательских работ, у MR3 есть вопросы, которые ещё предстоит прояснить на практике.
Независимость от критериев – сильная сторона модели, но одновременно и зона неопределённости. Когда оценщик сам выстраивает логику оценки, не опираясь на явные правила, возникает вопрос: насколько стабильны и предсказуемы его суждения в разных контекстах? Проверить это на реальных продакшн-сценариях сложнее, чем на тестовых наборах данных.
Многоязычность тоже неоднородна по качеству: модели, как правило, работают лучше на языках с большим количеством обучающих данных. Насколько равномерно MR3 справляется с менее ресурсными языками – вопрос, который требует отдельного изучения.
Тем не менее направление, в котором движется MR3, выглядит логично: оценка качества языковых моделей должна быть такой же гибкой и многоязычной, как и сами модели. И здесь MR3 делает заметный шаг вперёд.