Когда ИИ-агент отвечает на вопрос, кажется, что оценить его несложно: ответил правильно – хорошо, ошибся – плохо. Но если копнуть чуть глубже, оказывается, что «кажется нормальным» и «работает надёжно» – это совсем разные вещи. Именно с этого противоречия и начинается история NOVA – системы оценки, которую компания LightOn строит вокруг своего продукта.
Зачем вообще нужна система оценки – разве интуиции недостаточно?
Представьте, что вы спросили у корпоративного ИИ-помощника что-то по внутренним документам и получили складный, уверенный ответ. Проблема в том, что уверенно звучащий текст и фактически правильный текст – не одно и то же. Языковые модели умеют убедительно формулировать даже то, чего нет в источниках.
Проще говоря: без измерений невозможно отличить реальное улучшение от случайной удачи или незамеченного регресса. Именно поэтому LightOn разработала NOVA – набор инструментов и подходов, которые позволяют оценивать не «впечатление», а конкретные показатели на каждом этапе работы системы.
Слой за слоем: как устроена честная оценка
Большинство современных ИИ-агентов для работы с документами устроены примерно так: система ищет нужные фрагменты в базе знаний, а потом на их основе генерирует ответ. Такой подход называют RAG – «генерация, дополненная поиском». Звучит просто, но на практике в этой цепочке много этапов, где что-то может пойти не так.
Поиск и ответ – самый очевидный уровень
Первый вопрос: нашла ли система нужные документы? И второй: соответствует ли ответ тому, что в них написано?
С поиском всё относительно понятно – существуют устоявшиеся метрики, которые показывают, насколько точно система находит релевантные фрагменты. С оценкой качества ответа сложнее. На протяжении многих лет исследователи пытались решить эту задачу: разрабатывали алгоритмы сравнения текстов, анализировали схожесть формулировок. Но когда одна и та же мысль может быть выражена десятком разных способов, такие подходы часто дают сбой.
Сейчас популярен метод «ИИ оценивает ИИ», где языковая модель выступает судьёй для другой языковой модели. Но и здесь есть подводные камни: такие «судьи» склонны предпочитать длинные, уверенно звучащие ответы и могут давать непоследовательные оценки от запуска к запуску. Просьба к модели поставить балл от 1 до 10 – это, по сути, та же вкусовщина, только оформленная в виде цифр.
В NOVA используется другой подход: вместо одного «судьи», который оценивает всё сразу, задействовано несколько узкоспециализированных. Один проверяет, не придумала ли модель факты, отсутствующие в источниках. Другой следит за тем, чтобы система корректно отказывалась отвечать, если нужной информации нет. Каждый оценивает конкретный аспект по чёткому критерию. Ключевое наблюдение: один «мегасудья», пытающийся охватить всё, работает хуже, чем группа узких специалистов.
Ранжирование – помогает ли оно на самом деле?
Многие современные системы добавляют промежуточный шаг между поиском и генерацией: найденные фрагменты пересортировываются более мощной моделью, которая определяет наиболее релевантные из них. В теории это должно повышать качество. На практике эффективность метода нужно проверять, так как этот шаг увеличивает задержку, и если он не даёт реального выигрыша, то становится лишь лишней нагрузкой. NOVA сравнивает качество поиска до и после этого этапа, чтобы видеть реальную картину, а не предполагаемую.
Подготовка документов – невидимая точка отказа
Прежде чем документ попадёт в поиск, его нужно обработать: распознать текст, извлечь содержимое из PDF, разбить на фрагменты подходящего размера. Этот этап обычно остаётся за кадром, но именно здесь часто теряется критически важная информация.
В LightOn отмечают, что многие случаи «галлюцинаций» модели на деле оказывались не её ошибкой, а проблемой парсинга: модели просто не предоставили нужный контент, и она работала с тем, что было. Это как обвинять повара в плохом вкусе блюда, не замечая, что продукты были испорчены ещё на складе. Поэтому в NOVA качество обработки документов – это полноценная метрика, а не второстепенный параметр.
Агентные решения – слой, который определяет всё
В простой системе каждый запрос проходит одинаковый путь. В более сложных агент сначала решает: нужно ли вообще что-то искать? В каком источнике? Как лучше переформулировать вопрос? Это отдельный уровень, который тоже требует оценки. Ошибка на этом этапе обесценивает всё остальное – даже идеально настроенный поиск не поможет, если агент решил искать не там.
Публичные рейтинги – это гипотеза, а не приговор
В индустрии принято сравнивать модели по публичным бенчмаркам – стандартизированным тестовым наборам для объективного измерения возможностей. LightOn активно участвует в этой работе: следит за качеством бенчмарков, исправляет ошибки в существующих и выпускает собственные.
Однако публичный рейтинг отвечает на вопрос «насколько хороша эта модель в контролируемых условиях», а не «насколько успешно она работает в вашей конкретной системе с вашими документами и запросами». Поэтому в LightOn любая новая модель проходит не только публичные тесты, но и внутренний набор проверок на реальных данных. Если модель лидирует в рейтинге, но демонстрирует регресс на документах с таблицами – это станет известно до того, как она попадёт в итоговый продукт.
Соблазн велик: один раз настроить систему, прогнать проверку, получить хорошие результаты и забыть об этом. Но системы не статичны. Появляются новые источники данных с документами, под которые обработка не была заточена. Разные версии моделей могут по-разному реагировать на одни и те же подсказки. Пользователи задают вопросы, которых не было в тестовых наборах.
В программной разработке давно пришли к выводу: чем раньше поймаешь ошибку, тем дешевле её исправить. Тот же принцип работает и здесь. В LightOn каждое значимое изменение – новая модель, стратегия разбивки документов или шаблон запроса – проходит через NOVA до попадания в эксплуатацию. Это позволяет вовремя заметить, например, что новая модель стала более многословной, что замедлило систему еще до того, как на это пожалуются пользователи.
При этом оценка – это не только контроль качества. В LightOn используют NOVA как основу для автоматической оптимизации конфигурации системы: сначала запускают процесс улучшения, затем валидируют результат полноценным прогоном. Оценочная система становится не просто фильтром, а инструментом, который делает продукт лучше.
Цена и отдача
Построение такой инфраструктуры – это инвестиция. Требуются время, экспертиза и готовность притормозить ради качества. Но вложения окупаются: становится меньше споров о том, что «кажется» лучше, сокращается число критических сбоев, а итерации ускоряются, так как становится понятно, на что именно смотреть.
Если коротко: без измерений нельзя улучшать. А без правильно выстроенных измерений можно долго улучшать не то, что нужно.