Опубликовано 12 марта 2026

Методы и критерии оценки качества работы ИИ-агентов

Как понять, что ваш ИИ-агент работает правильно, а не просто выглядит убедительно

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

Разработка 5 – 7 минут чтения

Источник события: LightOn AI 5 – 7 минут чтения

Когда ИИ-агент отвечает на вопрос, кажется, что оценить его несложно: ответил правильно – хорошо, ошибся – плохо. Но если копнуть чуть глубже, оказывается, что «кажется нормальным» и «работает надёжно» – это совсем разные вещи. Именно с этого противоречия и начинается история NOVA – системы оценки, которую компания LightOn строит вокруг своего продукта.

Почему интуитивная оценка ответов нейросетей неэффективна

Зачем вообще нужна система оценки – разве интуиции недостаточно?

Представьте, что вы спросили у корпоративного ИИ-помощника что-то по внутренним документам и получили складный, уверенный ответ. Проблема в том, что уверенно звучащий текст и фактически правильный текст – не одно и то же. Языковые модели умеют убедительно формулировать даже то, чего нет в источниках.

Проще говоря: без измерений невозможно отличить реальное улучшение от случайной удачи или незамеченного регресса. Именно поэтому LightOn разработала NOVA – набор инструментов и подходов, которые позволяют оценивать не «впечатление», а конкретные показатели на каждом этапе работы системы.

Основные этапы и метрики проверки качества RAG-систем

Слой за слоем: как устроена честная оценка

Большинство современных ИИ-агентов для работы с документами устроены примерно так: система ищет нужные фрагменты в базе знаний, а потом на их основе генерирует ответ. Такой подход называют RAG – «генерация, дополненная поиском». Звучит просто, но на практике в этой цепочке много этапов, где что-то может пойти не так.

Поиск и ответ – самый очевидный уровень

Первый вопрос: нашла ли система нужные документы? И второй: соответствует ли ответ тому, что в них написано?

С поиском всё относительно понятно – существуют устоявшиеся метрики, которые показывают, насколько точно система находит релевантные фрагменты. С оценкой качества ответа сложнее. На протяжении многих лет исследователи пытались решить эту задачу: разрабатывали алгоритмы сравнения текстов, анализировали схожесть формулировок. Но когда одна и та же мысль может быть выражена десятком разных способов, такие подходы часто дают сбой.

Сейчас популярен метод «ИИ оценивает ИИ», где языковая модель выступает судьёй для другой языковой модели. Но и здесь есть подводные камни: такие «судьи» склонны предпочитать длинные, уверенно звучащие ответы и могут давать непоследовательные оценки от запуска к запуску. Просьба к модели поставить балл от 1 до 10 – это, по сути, та же вкусовщина, только оформленная в виде цифр.

В NOVA используется другой подход: вместо одного «судьи», который оценивает всё сразу, задействовано несколько узкоспециализированных. Один проверяет, не придумала ли модель факты, отсутствующие в источниках. Другой следит за тем, чтобы система корректно отказывалась отвечать, если нужной информации нет. Каждый оценивает конкретный аспект по чёткому критерию. Ключевое наблюдение: один «мегасудья», пытающийся охватить всё, работает хуже, чем группа узких специалистов.

Ранжирование – помогает ли оно на самом деле?

Многие современные системы добавляют промежуточный шаг между поиском и генерацией: найденные фрагменты пересортировываются более мощной моделью, которая определяет наиболее релевантные из них. В теории это должно повышать качество. На практике эффективность метода нужно проверять, так как этот шаг увеличивает задержку, и если он не даёт реального выигрыша, то становится лишь лишней нагрузкой. NOVA сравнивает качество поиска до и после этого этапа, чтобы видеть реальную картину, а не предполагаемую.

Подготовка документов – невидимая точка отказа

Прежде чем документ попадёт в поиск, его нужно обработать: распознать текст, извлечь содержимое из PDF, разбить на фрагменты подходящего размера. Этот этап обычно остаётся за кадром, но именно здесь часто теряется критически важная информация.

В LightOn отмечают, что многие случаи «галлюцинаций» модели на деле оказывались не её ошибкой, а проблемой парсинга: модели просто не предоставили нужный контент, и она работала с тем, что было. Это как обвинять повара в плохом вкусе блюда, не замечая, что продукты были испорчены ещё на складе. Поэтому в NOVA качество обработки документов – это полноценная метрика, а не второстепенный параметр.

Агентные решения – слой, который определяет всё

В простой системе каждый запрос проходит одинаковый путь. В более сложных агент сначала решает: нужно ли вообще что-то искать? В каком источнике? Как лучше переформулировать вопрос? Это отдельный уровень, который тоже требует оценки. Ошибка на этом этапе обесценивает всё остальное – даже идеально настроенный поиск не поможет, если агент решил искать не там.

Ограничения публичных бенчмарков при тестировании языковых моделей

Публичные рейтинги – это гипотеза, а не приговор

В индустрии принято сравнивать модели по публичным бенчмаркам – стандартизированным тестовым наборам для объективного измерения возможностей. LightOn активно участвует в этой работе: следит за качеством бенчмарков, исправляет ошибки в существующих и выпускает собственные.

Однако публичный рейтинг отвечает на вопрос «насколько хороша эта модель в контролируемых условиях», а не «насколько успешно она работает в вашей конкретной системе с вашими документами и запросами». Поэтому в LightOn любая новая модель проходит не только публичные тесты, но и внутренний набор проверок на реальных данных. Если модель лидирует в рейтинге, но демонстрирует регресс на документах с таблицами – это станет известно до того, как она попадёт в итоговый продукт.

Оценка – это не финишная черта, а постоянный процесс

Соблазн велик: один раз настроить систему, прогнать проверку, получить хорошие результаты и забыть об этом. Но системы не статичны. Появляются новые источники данных с документами, под которые обработка не была заточена. Разные версии моделей могут по-разному реагировать на одни и те же подсказки. Пользователи задают вопросы, которых не было в тестовых наборах.

В программной разработке давно пришли к выводу: чем раньше поймаешь ошибку, тем дешевле её исправить. Тот же принцип работает и здесь. В LightOn каждое значимое изменение – новая модель, стратегия разбивки документов или шаблон запроса – проходит через NOVA до попадания в эксплуатацию. Это позволяет вовремя заметить, например, что новая модель стала более многословной, что замедлило систему еще до того, как на это пожалуются пользователи.

При этом оценка – это не только контроль качества. В LightOn используют NOVA как основу для автоматической оптимизации конфигурации системы: сначала запускают процесс улучшения, затем валидируют результат полноценным прогоном. Оценочная система становится не просто фильтром, а инструментом, который делает продукт лучше.

Преимущества внедрения системы оценки для ИИ-проектов

Цена и отдача

Построение такой инфраструктуры – это инвестиция. Требуются время, экспертиза и готовность притормозить ради качества. Но вложения окупаются: становится меньше споров о том, что «кажется» лучше, сокращается число критических сбоев, а итерации ускоряются, так как становится понятно, на что именно смотреть.

Если коротко: без измерений нельзя улучшать. А без правильно выстроенных измерений можно долго улучшать не то, что нужно.

#прикладной разбор #методология #развитие ии #обучение ии #безопасность ии #компьютерные системы #данные #надежность ии #бенчмаркинг агентов

Ссылка на публикацию: https://www.lighton.ai/lighton-blogs/nova-a-guide-to-actually-measuring-how-your-agent-works-on-your-data

Оригинальное название: NOVA: A Guide to Actually Measuring How Your Agent Works on Your Data

Дата публикации: 11 мар 2026

LightOn AI www.lighton.ai Французская компания, разрабатывающая большие языковые модели и ИИ-решения для бизнеса и науки.

Предыдущая статья Свет вместо меди: Lightmatter и Qualcomm установили рекорд скорости передачи данных для ИИ-кластеров Следующая статья Reka Edge: мощное ИИ-зрение, которому не нужны облака

Методы и критерии оценки качества работы ИИ-агентов

Почему интуитивная оценка ответов нейросетей неэффективна

Основные этапы и метрики проверки качества RAG-систем

Поиск и ответ – самый очевидный уровень

Ранжирование – помогает ли оно на самом деле?

Подготовка документов – невидимая точка отказа

Агентные решения – слой, который определяет всё

Ограничения публичных бенчмарков при тестировании языковых моделей

Оценка – это не финишная черта, а постоянный процесс

Преимущества внедрения системы оценки для ИИ-проектов

Связанные публикации

How2Everything: когда инструкции чат-бота должны действительно работать

Тест-драйв ИИ-агентов: проверка в реальных условиях, а не на игрушечных задачах

Perplexity представила бенчмарк для оценки качества глубоких ИИ-исследований

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации