Когда говорят о тестировании языковых моделей, обычно на ум приходят задачи вроде решения математических уравнений или ответов на вопросы по тексту. Но что, если нужно оценить способность ИИ действительно исследовать тему – искать информацию, анализировать её и формировать целостное понимание? Именно для этого команда Perplexity создала DRACO – бенчмарк, проверяющий модели на реалистичных исследовательских сценариях.
Что не так с обычными тестами
Большинство существующих бенчмарков для ИИ работают по принципу «вопрос – ответ»: модели дают короткий текст, который легко проверить на корректность. Это удобно, но не отражает того, как люди используют нейросети для глубокого изучения тем.
Когда вы просите модель разобраться в сложном вопросе – например, сравнить подходы к лечению заболевания или оценить экономические последствия события, – вы ожидаете не одно предложение, а развёрнутый анализ. Оценить такую работу гораздо сложнее: нужно проверить не только фактическую точность, но и полноту раскрытия темы, а также беспристрастность подачи разных точек зрения.
Три критерия для глубокого исследования
DRACO построен вокруг трёх ключевых характеристик, критически важных для любого качественного исследования:
Точность – проверяет отсутствие фактических ошибок. Если ИИ пишет о медицинском исследовании, важно, чтобы цифры, выводы и терминология были корректными.
Полнота – оценивает охват темы. Достаточно ли представленной информации, чтобы у читателя сложилось целостное представление, или важные аспекты были упущены?
Объективность – анализирует баланс в подаче материала. Представлены ли альтернативные точки зрения или модель склоняется к одной позиции, игнорируя остальные?
Эти критерии звучат просто, но на практике их измерение – сложная задача. Нельзя просто сравнить текст с эталонным ответом, как в школьном тесте по математике.
Как устроен бенчмарк
DRACO включает запросы из четырёх областей: медицина, наука, финансы и политика. Такое разделение намеренно – оно позволяет проверить, как модели адаптируются к специфике разных тем. В медицине приоритетна точность данных, в политике – баланс мнений, а в финансах – актуальность информации.
Каждый запрос сформулирован так, чтобы заставить модель провести именно глубокое изыскание. Это не вопрос уровня «Кто изобрёл телефон»?, а скорее: «Какие существуют подходы к лечению данного заболевания и что говорят об их эффективности последние клинические исследования»?
Для оценки результатов команда Perplexity разработала систему, использующую другую языковую модель в качестве «судьи». Это распространённый метод в современной индустрии: одна модель генерирует ответ, а вторая оценивает его качество по заданным параметрам. Конечно, такой подход не идеален, однако он позволяет автоматизировать процесс и сделать его воспроизводимым.
Зачем это нужно
Появление DRACO продиктовано тем, что всё больше пользователей используют ИИ не для получения быстрых справок, а для погружения в сложные темы. Инструменты вроде Deep Research (Глубокий поиск) в самом Perplexity или аналогичные решения от конкурентов нацелены именно на это: помочь разобраться в проблеме, собрав и проанализировав информацию из множества источников.
Но как объективно измерить эффективность таких инструментов? Субъективных отзывов недостаточно для систематического развития технологий. Бенчмарк же даёт возможность фиксировать прогресс и сравнивать различные алгоритмы между собой.
Что дальше
DRACO – это лишь фундамент, а не финальное решение. Команда Perplexity открыто заявляет, что бенчмарк будет развиваться: добавятся новые дисциплины, уточнятся критерии и, возможно, появятся дополнительные метрики.
Кроме того, актуальным остаётся вопрос о том, насколько автоматическая оценка «моделью-судьёй» соответствует человеческому восприятию качества. Это известная проблема в области ИИ: алгоритмы всё ещё могут расходиться с людьми в представлении о том, что считать «хорошим» ответом.
Тем не менее, сам факт появления подобного инструмента показывает, что индустрия движется в сторону более сложных и реалистичных методов проверки ИИ. Теперь важно не просто «правильно или неправильно», а насколько результат полезен и надёжен для решения реальных задач.