Опубликовано 12 марта 2026

Методы и критерии оценки качества работы ИИ-агентов

Как понять, что ваш ИИ-агент работает правильно, а не просто выглядит убедительно

Компания LightOn представила оценочную систему NOVA. Рассказываем, как она устроена и почему «субъективного ощущения» недостаточно для проверки ИИ-агентов.

Разработка 5 – 7 минут чтения
Источник события: LightOn AI 5 – 7 минут чтения

Когда ИИ-агент отвечает на вопрос, кажется, что оценить его несложно: ответил правильно – хорошо, ошибся – плохо. Но если копнуть чуть глубже, оказывается, что «кажется нормальным» и «работает надёжно» – это совсем разные вещи. Именно с этого противоречия и начинается история NOVA – системы оценки, которую компания LightOn строит вокруг своего продукта.

Почему интуитивная оценка ответов нейросетей неэффективна

Зачем вообще нужна система оценки – разве интуиции недостаточно?

Представьте, что вы спросили у корпоративного ИИ-помощника что-то по внутренним документам и получили складный, уверенный ответ. Проблема в том, что уверенно звучащий текст и фактически правильный текст – не одно и то же. Языковые модели умеют убедительно формулировать даже то, чего нет в источниках.

Проще говоря: без измерений невозможно отличить реальное улучшение от случайной удачи или незамеченного регресса. Именно поэтому LightOn разработала NOVA – набор инструментов и подходов, которые позволяют оценивать не «впечатление», а конкретные показатели на каждом этапе работы системы.

Основные этапы и метрики проверки качества RAG-систем

Слой за слоем: как устроена честная оценка

Большинство современных ИИ-агентов для работы с документами устроены примерно так: система ищет нужные фрагменты в базе знаний, а потом на их основе генерирует ответ. Такой подход называют RAG – «генерация, дополненная поиском». Звучит просто, но на практике в этой цепочке много этапов, где что-то может пойти не так.

Поиск и ответ – самый очевидный уровень

Первый вопрос: нашла ли система нужные документы? И второй: соответствует ли ответ тому, что в них написано?

С поиском всё относительно понятно – существуют устоявшиеся метрики, которые показывают, насколько точно система находит релевантные фрагменты. С оценкой качества ответа сложнее. На протяжении многих лет исследователи пытались решить эту задачу: разрабатывали алгоритмы сравнения текстов, анализировали схожесть формулировок. Но когда одна и та же мысль может быть выражена десятком разных способов, такие подходы часто дают сбой.

Сейчас популярен метод «ИИ оценивает ИИ», где языковая модель выступает судьёй для другой языковой модели. Но и здесь есть подводные камни: такие «судьи» склонны предпочитать длинные, уверенно звучащие ответы и могут давать непоследовательные оценки от запуска к запуску. Просьба к модели поставить балл от 1 до 10 – это, по сути, та же вкусовщина, только оформленная в виде цифр.

В NOVA используется другой подход: вместо одного «судьи», который оценивает всё сразу, задействовано несколько узкоспециализированных. Один проверяет, не придумала ли модель факты, отсутствующие в источниках. Другой следит за тем, чтобы система корректно отказывалась отвечать, если нужной информации нет. Каждый оценивает конкретный аспект по чёткому критерию. Ключевое наблюдение: один «мегасудья», пытающийся охватить всё, работает хуже, чем группа узких специалистов.

Ранжирование – помогает ли оно на самом деле?

Многие современные системы добавляют промежуточный шаг между поиском и генерацией: найденные фрагменты пересортировываются более мощной моделью, которая определяет наиболее релевантные из них. В теории это должно повышать качество. На практике эффективность метода нужно проверять, так как этот шаг увеличивает задержку, и если он не даёт реального выигрыша, то становится лишь лишней нагрузкой. NOVA сравнивает качество поиска до и после этого этапа, чтобы видеть реальную картину, а не предполагаемую.

Подготовка документов – невидимая точка отказа

Прежде чем документ попадёт в поиск, его нужно обработать: распознать текст, извлечь содержимое из PDF, разбить на фрагменты подходящего размера. Этот этап обычно остаётся за кадром, но именно здесь часто теряется критически важная информация.

В LightOn отмечают, что многие случаи «галлюцинаций» модели на деле оказывались не её ошибкой, а проблемой парсинга: модели просто не предоставили нужный контент, и она работала с тем, что было. Это как обвинять повара в плохом вкусе блюда, не замечая, что продукты были испорчены ещё на складе. Поэтому в NOVA качество обработки документов – это полноценная метрика, а не второстепенный параметр.

Агентные решения – слой, который определяет всё

В простой системе каждый запрос проходит одинаковый путь. В более сложных агент сначала решает: нужно ли вообще что-то искать? В каком источнике? Как лучше переформулировать вопрос? Это отдельный уровень, который тоже требует оценки. Ошибка на этом этапе обесценивает всё остальное – даже идеально настроенный поиск не поможет, если агент решил искать не там.

Ограничения публичных бенчмарков при тестировании языковых моделей

Публичные рейтинги – это гипотеза, а не приговор

В индустрии принято сравнивать модели по публичным бенчмаркам – стандартизированным тестовым наборам для объективного измерения возможностей. LightOn активно участвует в этой работе: следит за качеством бенчмарков, исправляет ошибки в существующих и выпускает собственные.

Однако публичный рейтинг отвечает на вопрос «насколько хороша эта модель в контролируемых условиях», а не «насколько успешно она работает в вашей конкретной системе с вашими документами и запросами». Поэтому в LightOn любая новая модель проходит не только публичные тесты, но и внутренний набор проверок на реальных данных. Если модель лидирует в рейтинге, но демонстрирует регресс на документах с таблицами – это станет известно до того, как она попадёт в итоговый продукт.

Оценка – это не финишная черта, а постоянный процесс

Соблазн велик: один раз настроить систему, прогнать проверку, получить хорошие результаты и забыть об этом. Но системы не статичны. Появляются новые источники данных с документами, под которые обработка не была заточена. Разные версии моделей могут по-разному реагировать на одни и те же подсказки. Пользователи задают вопросы, которых не было в тестовых наборах.

В программной разработке давно пришли к выводу: чем раньше поймаешь ошибку, тем дешевле её исправить. Тот же принцип работает и здесь. В LightOn каждое значимое изменение – новая модель, стратегия разбивки документов или шаблон запроса – проходит через NOVA до попадания в эксплуатацию. Это позволяет вовремя заметить, например, что новая модель стала более многословной, что замедлило систему еще до того, как на это пожалуются пользователи.

При этом оценка – это не только контроль качества. В LightOn используют NOVA как основу для автоматической оптимизации конфигурации системы: сначала запускают процесс улучшения, затем валидируют результат полноценным прогоном. Оценочная система становится не просто фильтром, а инструментом, который делает продукт лучше.

Преимущества внедрения системы оценки для ИИ-проектов

Цена и отдача

Построение такой инфраструктуры – это инвестиция. Требуются время, экспертиза и готовность притормозить ради качества. Но вложения окупаются: становится меньше споров о том, что «кажется» лучше, сокращается число критических сбоев, а итерации ускоряются, так как становится понятно, на что именно смотреть.

Если коротко: без измерений нельзя улучшать. А без правильно выстроенных измерений можно долго улучшать не то, что нужно.

Оригинальное название: NOVA: A Guide to Actually Measuring How Your Agent Works on Your Data
Дата публикации: 11 мар 2026
LightOn AI www.lighton.ai Французская компания, разрабатывающая большие языковые модели и ИИ-решения для бизнеса и науки.
Предыдущая статья Свет вместо меди: Lightmatter и Qualcomm установили рекорд скорости передачи данных для ИИ-кластеров Следующая статья Reka Edge: мощное ИИ-зрение, которому не нужны облака

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Исследователи Hugging Face продемонстрировали способ проверки способности языковых моделей применять инструменты непосредственно в реальной среде, а не в изолированных условиях.

Hugging Facehuggingface.co 13 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться