Опубликовано 6 февраля 2026

Perplexity представила бенчмарк для оценки качества глубоких ИИ-исследований

Новый бенчмарк DRACO оценивает, насколько точно, полно и объективно ИИ-системы справляются с комплексным изучением тем в различных областях знаний.

Разработка 3 – 4 минуты чтения
Источник события: Perplexity AI 3 – 4 минуты чтения

Когда говорят о тестировании языковых моделей, обычно на ум приходят задачи вроде решения математических уравнений или ответов на вопросы по тексту. Но что, если нужно оценить способность ИИ действительно исследовать тему – искать информацию, анализировать её и формировать целостное понимание? Именно для этого команда Perplexity создала DRACO – бенчмарк, проверяющий модели на реалистичных исследовательских сценариях.

Почему стандартные бенчмарки не подходят для оценки ИИ-исследований

Что не так с обычными тестами

Большинство существующих бенчмарков для ИИ работают по принципу «вопрос – ответ»: модели дают короткий текст, который легко проверить на корректность. Это удобно, но не отражает того, как люди используют нейросети для глубокого изучения тем.

Когда вы просите модель разобраться в сложном вопросе – например, сравнить подходы к лечению заболевания или оценить экономические последствия события, – вы ожидаете не одно предложение, а развёрнутый анализ. Оценить такую работу гораздо сложнее: нужно проверить не только фактическую точность, но и полноту раскрытия темы, а также беспристрастность подачи разных точек зрения.

Точность, полнота и объективность как критерии оценки DRACO

Три критерия для глубокого исследования

DRACO построен вокруг трёх ключевых характеристик, критически важных для любого качественного исследования:

Точность – проверяет отсутствие фактических ошибок. Если ИИ пишет о медицинском исследовании, важно, чтобы цифры, выводы и терминология были корректными.

Полнота – оценивает охват темы. Достаточно ли представленной информации, чтобы у читателя сложилось целостное представление, или важные аспекты были упущены?

Объективность – анализирует баланс в подаче материала. Представлены ли альтернативные точки зрения или модель склоняется к одной позиции, игнорируя остальные?

Эти критерии звучат просто, но на практике их измерение – сложная задача. Нельзя просто сравнить текст с эталонным ответом, как в школьном тесте по математике.

Структура и методология оценки DRACO

Как устроен бенчмарк

DRACO включает запросы из четырёх областей: медицина, наука, финансы и политика. Такое разделение намеренно – оно позволяет проверить, как модели адаптируются к специфике разных тем. В медицине приоритетна точность данных, в политике – баланс мнений, а в финансах – актуальность информации.

Каждый запрос сформулирован так, чтобы заставить модель провести именно глубокое изыскание. Это не вопрос уровня «Кто изобрёл телефон»?, а скорее: «Какие существуют подходы к лечению данного заболевания и что говорят об их эффективности последние клинические исследования»?

Для оценки результатов команда Perplexity разработала систему, использующую другую языковую модель в качестве «судьи». Это распространённый метод в современной индустрии: одна модель генерирует ответ, а вторая оценивает его качество по заданным параметрам. Конечно, такой подход не идеален, однако он позволяет автоматизировать процесс и сделать его воспроизводимым.

Применение бенчмарка DRACO для оценки ИИ-инструментов

Зачем это нужно

Появление DRACO продиктовано тем, что всё больше пользователей используют ИИ не для получения быстрых справок, а для погружения в сложные темы. Инструменты вроде Deep Research (Глубокий поиск) в самом Perplexity или аналогичные решения от конкурентов нацелены именно на это: помочь разобраться в проблеме, собрав и проанализировав информацию из множества источников.

Но как объективно измерить эффективность таких инструментов? Субъективных отзывов недостаточно для систематического развития технологий. Бенчмарк же даёт возможность фиксировать прогресс и сравнивать различные алгоритмы между собой.

Развитие бенчмарка DRACO и планы команды Perplexity

Что дальше

DRACO – это лишь фундамент, а не финальное решение. Команда Perplexity открыто заявляет, что бенчмарк будет развиваться: добавятся новые дисциплины, уточнятся критерии и, возможно, появятся дополнительные метрики.

Кроме того, актуальным остаётся вопрос о том, насколько автоматическая оценка «моделью-судьёй» соответствует человеческому восприятию качества. Это известная проблема в области ИИ: алгоритмы всё ещё могут расходиться с людьми в представлении о том, что считать «хорошим» ответом.

Тем не менее, сам факт появления подобного инструмента показывает, что индустрия движется в сторону более сложных и реалистичных методов проверки ИИ. Теперь важно не просто «правильно или неправильно», а насколько результат полезен и надёжен для решения реальных задач.

Оригинальное название: Evaluating Deep Research Performance in the Wild with the DRACO Benchmark
Дата публикации: 6 фев 2026
Perplexity AI research.perplexity.ai Американская компания, разрабатывающая ИИ-поисковую систему с ответами на основе источников.
Предыдущая статья Roblox представила Cube – генеративную модель для создания 3D-миров Следующая статья Как масштабировать vLLM и не допустить ошибок нехватки памяти

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Исследователи из ОАЭ создали набор тестов для проверки того, насколько хорошо большие языковые модели справляются с эмиратским диалектом арабского языка.

Hugging Facehuggingface.co 27 янв 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться