Опубликовано 14 марта 2026

RAFFLES: как ИИ объясняет ошибки языковых моделей

RAFFLES: как научить ИИ объяснять собственные ошибки

Исследователи предложили новый подход к оценке качества ответов ИИ, который вместо простого «да/нет» пытается разобраться в причинах ошибок.

Исследования / Технический контекст 3 – 5 минут чтения
Источник события: Capital One 3 – 5 минут чтения

Когда языковая модель даёт неверный ответ, первый вопрос, который возникает у разработчиков, – почему. Не «что пошло не так», а именно почему: какая часть рассуждения сломалась, в какой момент модель свернула не туда. На практике это оказывается удивительно трудной задачей, и именно её берётся решать система RAFFLES.

Оценка ИИ – задача не проще, чем сам ИИ

Стандартный подход к оценке качества модели выглядит примерно так: берём ответ, сравниваем с эталоном, выставляем оценку. Это работает, пока речь идёт о простых, однозначных задачах. Но когда модель решает что-то многоступенчатое – анализирует документ, строит рассуждение, делает вывод – такой подход начинает давать сбои. Он не объясняет, где именно возникла ошибка.

Проще говоря: знать, что ответ неправильный, полезно. Знать, на каком шаге рассуждение пошло не туда, – значительно полезнее.

RAFFLES – это архитектура оценки, которая подходит к проблеме иначе. Вместо того чтобы просто вынести вердикт, она пытается атрибутировать ошибку – то есть установить, где именно и почему что-то пошло не так. При этом сам процесс оценки строится на рассуждении и итеративном уточнении.

Что значит рассуждение в контексте оценки ИИ

Что значит «рассуждение» в контексте оценки?

Идея в том, что оценщик – в данном случае тоже языковая модель – не просто смотрит на финальный результат, а разбирает ответ по шагам. Он как бы задаёт себе вопросы: «А правильно ли здесь был сделан этот вывод? А откуда взялось это утверждение? А согласуется ли это с тем, что было в исходном тексте?»

Это напоминает то, как преподаватель проверяет задачу: ему важно не только финальное число, но и ход решения. Ошибка в начале рассуждения может привести к правдоподобно звучащему, но неверному выводу – и наоборот, правильный ответ может быть получен случайно, через неверную цепочку шагов.

RAFFLES пытается поймать именно это: не просто ошибку на выходе, а точку разрыва в логике.

Итеративное уточнение: когда первый взгляд не окончательный

Второй ключевой элемент подхода – итеративность. Оценка происходит не за один проход, а в несколько этапов. Модель-оценщик формирует предварительный вывод, затем возвращается к нему, пересматривает, уточняет.

Это важно по той же причине, по которой черновики существуют у людей: первое суждение не всегда самое точное. Особенно когда речь идёт о сложных, многосоставных ответах, где важна последовательность деталей.

Такой подход позволяет не просто механически сравнивать ответ с эталоном, а приходить к более взвешенному и обоснованному выводу – с указанием конкретных причин расхождения.

Зачем это нужно на практике

Зачем это нужно на практике?

Если вы работаете с языковыми моделями в каком-то прикладном контексте – будь то автоматическая обработка документов, поддержка клиентов или что-то ещё, – вы рано или поздно сталкиваетесь с необходимостью понять, насколько хорошо модель справляется. И тут важен не просто процент правильных ответов, а понимание паттернов ошибок: модель систематически неверно интерпретирует условие? Теряет контекст в длинных текстах? Делает ложные выводы из верных предпосылок?

Без инструментов, которые могут атрибутировать ошибки, такое понимание остаётся интуитивным. RAFFLES предлагает сделать его более системным.

Работа была представлена на конференции EACL – это одна из ключевых научных площадок в области обработки естественного языка. Что говорит о том, что подход прошёл через академическую рецензию, а не просто опубликован в блоге.

Что остаётся открытым

RAFFLES – это архитектурный подход, исследовательская работа. Это не готовый продукт, который можно скачать и применить к любой задаче. Насколько хорошо он обобщается на разные типы задач и разные модели, – вопрос, который потребует дальнейшей проверки.

Кроме того, когда модель используется для оценки другой модели, возникает закономерный вопрос о надёжности самого оценщика. Если у него есть собственные слепые пятна или систематические искажения, это неизбежно повлияет на результат. Это общая проблема подхода «модель оценивает модель», и RAFFLES не является исключением.

Тем не менее сам принцип – оценка через рассуждение с атрибуцией ошибок – звучит как шаг в сторону более осмысленной диагностики языковых моделей. Особенно актуальной сейчас, когда модели всё активнее применяются в задачах, где цена ошибки значима.

Оригинальное название: RAFFLES: reasoning-based attribution of faults
Дата публикации: 24 мар 2026
Capital One www.capitalone.com Американская финансово-технологическая корпорация, применяющая машинное обучение и исследования в области ИИ для развития банковских сервисов, анализа данных и автоматизации финансовых процессов.
Предыдущая статья Компьютер с ИИ-агентом внутри: новый облик привычного ПК Следующая статья Сбер научился проверять, умеет ли ИИ по-настоящему заглядывать в будущее

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Исследователи предложили новый способ измерять неуверенность ИИ-моделей – через «пробелы в признаках», которые помогают точнее понять, когда модели не стоит доверять.

Capital Onewww.capitalone.com 14 мар 2026

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

LightOn AIwww.lighton.ai 12 мар 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите глубже погрузиться в мир
нейротворчества?

Первыми узнавайте о новых книгах, статьях и экспериментах с ИИ
в нашем Telegram-канале!

Подписаться