Когда компания планирует внедрить ИИ-поиск по внутренним документам, почти сразу возникает непростой вопрос: как проверить, что система работает эффективно, не передавая свои данные сторонним организациям? Демонстрировать реальные корпоративные файлы – значит рисковать. Тестировать на абстрактных примерах – значит получать результаты, которые мало что говорят о работе в реальных условиях.
Именно в таких условиях появился EDiTh – открытый бенчмарк от компании LightOn, предназначенный специально для оценки корпоративного поиска.
Что такое бенчмарк и зачем он нужен?
Проще говоря, бенчмарк – это набор тестов с известными правильными ответами. Запустив на нём систему, можно увидеть, насколько точно она справляется с задачами, и сравнить различные решения по одной шкале.
В мире потребительских ИИ-инструментов таких тестов много. Но корпоративный поиск – это отдельная история. Здесь речь идёт не о поиске статьи в интернете, а об ответе на конкретный вопрос руководителя по внутренней документации компании: договорам, отчётам, регламентам, переписке. Такие данные не принято выкладывать публично, поэтому нормального стандарта для оценки подобных систем до сих пор не существовало.
Почему раньше это было трудно решить?
Компании, желающие выбрать или оценить систему корпоративного поиска, оказывались в затруднительном положении. Либо они тестировали продукт на своих реальных документах, что вызывало вопросы безопасности и конфиденциальности. Либо использовали публичные датасеты, но тогда результаты не отражали, как система поведёт себя с настоящими рабочими материалами.
Задача LightOn заключалась в создании компромиссного решения: документов, которые воспринимаются как настоящие корпоративные, но при этом не содержат ничего реального и чувствительного. Проще говоря, это убедительная имитация, на которой можно честно проводить тестирование.
Что внутри EDiTh?
EDiTh построен на синтетических документах – то есть сгенерированных, а не взятых из реальных архивов. Но это не просто случайный текст. Документы имитируют типичные корпоративные форматы: внутренние отчёты, деловые письма, регламенты, финансовые сводки. По структуре и содержанию они достаточно близки к тому, с чем сотрудники работают ежедневно.
К этим документам прилагается набор вопросов – таких, какие реально могут задавать руководители или аналитики. Не «найди слово», а «что говорится в договоре о сроках ответственности» или «какие риски упоминаются в квартальном отчёте». Именно такие вопросы представляют настоящую сложность для систем поиска.
Для каждого вопроса есть правильный ответ, что позволяет объективно оценить, насколько хорошо система справляется. В этом и заключается суть бенчмарка.
Открытость – намеренный выбор
EDiTh распространяется как открытый инструмент. Это принципиально: закрытый бенчмарк, доступный только внутри одной компании, не создаёт общего стандарта. Открытость позволяет любой команде – разработчикам, исследователям, корпоративным пользователям – протестировать на нём свою систему и сравнить результаты с другими.
Для индустрии это важно. Когда у всех участников рынка есть общий тест, разговор о качестве продуктов становится предметным. Можно не просто говорить «наша система лучше», а показывать конкретные цифры на одном и том же наборе задач.
Кому и зачем это нужно?
Если коротко – всем, кто принимает решения о внедрении ИИ в корпоративную среду.
Для технических команд это инструмент оценки: можно проверить, как ведёт себя та или иная модель поиска на задачах, приближённых к реальным рабочим сценариям. Для бизнеса – способ задать поставщику конкретный вопрос: «Покажите результаты на EDiTh», вместо того чтобы верить на слово маркетинговым обещаниям.
Отдельно стоит отметить руководителей, которые хотят понять возможности систем, но не готовы передавать внутренние документы на тестирование сторонним компаниям. EDiTh снимает этот барьер: тест публичный, данные не нужны.
Что это меняет в более широком смысле?
Корпоративный ИИ-поиск – одна из тех областей, где разрыв между обещаниями и реальностью пока довольно велик. Продуктов много, качество сложно проверить, а критерии оценки у каждого свои.
Появление открытого отраслевого бенчмарка – это шаг к тому, чтобы данный рынок стал более прозрачным. Не революция, но ощутимый сдвиг: когда у всех есть одна линейка, измерять становится проще.
Конечно, синтетические документы – это не то же самое, что реальные корпоративные архивы. Система, которая хорошо справляется с EDiTh, может вести себя иначе в конкретной компании с её специфической терминологией и форматами. Бенчмарк – это ориентир, а не гарантия.
Но ориентир лучше, чем его отсутствие. И именно это LightOn сейчас предлагает рынку.