Когда компании выбирают ИИ для обработки документов, они обычно ориентируются на маркетинговые обещания, чужой опыт или интуицию. Провести собственное сравнение – дорого и долго. Команда Nanonets решила закрыть этот пробел и сделала то, что многие откладывают: взяла 16 популярных моделей и прогнала их через более чем 9000 реальных документов. Результаты оказались достаточно интересными, чтобы рассказать о них подробнее.
Что именно проверяли
Тестирование строилось на трёх открытых бенчмарках, которые охватывают разные аспекты работы с документами.
Первый – DocVQA. Здесь модель получает изображение документа и должна ответить на конкретный вопрос по его содержанию. Проще говоря, это проверка того, насколько хорошо модель умеет «читать» документ и находить в нём нужную информацию.
Второй – InfographicVQA. Похожая задача, но сложнее: документы содержат инфографику, графики, таблицы. Модели нужно понять не только текст, но и визуальную структуру.
Третий – ArxivQA. Научные статьи с формулами, схемами и специфическим форматированием. Это, пожалуй, самый требовательный из трёх форматов.
Во всех случаях оценивалась не просто «ответила или нет», а точность ответа по стандартной метрике ANLS – она учитывает, насколько близок ответ к правильному, даже если он немного отличается по формулировке.
Кто участвовал в гонке
В тестировании приняли участие модели от основных игроков рынка: GPT-4.5 и GPT-4o от OpenAI, Gemini 2.0 Flash и Gemini 1.5 Pro от Google, Claude Opus и Claude Sonnet от Anthropic, а также ряд других решений – включая модели от Mistral, Open-Source варианты и специализированные системы для работы с документами.
Итого 16 моделей. Диапазон широкий: от флагманских коммерческих продуктов до более доступных и компактных вариантов.
Неожиданные выводы
Первое, что бросается в глаза: самые дорогие модели не всегда оказываются лучшими именно для работы с документами. Это, казалось бы, очевидная мысль, но на практике при выборе инструмента её часто игнорируют, ориентируясь на общий рейтинг модели, а не на конкретную задачу.
Gemini 2.0 Flash показал себя одним из самых сбалансированных вариантов. При относительно низкой стоимости он демонстрировал высокую точность на большинстве типов документов. Это редкое сочетание – обычно приходится выбирать между скоростью, ценой и качеством.
GPT-4o оставался стабильным и надёжным, особенно на структурированных документах. Не всегда лидировал, но почти нигде не проваливался – то, что называют «безопасным выбором».
Claude Sonnet хорошо справлялся с длинными и сложными документами, где важно удерживать контекст. На коротких и простых формах его преимущество было менее заметным.
Что касается научных статей из ArxivQA – здесь разрыв между моделями оказался наибольшим. Формулы, нестандартное форматирование и плотный технический текст давались большинству моделей заметно хуже, чем обычные деловые документы.
Цена вопроса
Отдельно в исследовании анализировалась стоимость обработки. И вот тут картина становится практически важной для тех, кто думает о реальном внедрении.
Разница в цене между моделями – кратная. При этом разница в качестве на типовых задачах – значительно меньше. Если коротко: переплачивать за топовую модель при обработке стандартных счетов или форм, скорее всего, нет смысла. Но если документы сложные, нестандартные или требуют глубокого понимания контекста – здесь более мощная (и дорогая) модель может окупиться.
Это не универсальная истина, а скорее ориентир: тип документа должен влиять на выбор модели не меньше, чем общий рейтинг или узнаваемость бренда.
Один бенчмарк – не приговор
Важная оговорка, которую авторы исследования сами подчёркивают: бенчмарки – это срез, а не полная картина. Реальная работа с документами включает множество факторов, которые сложно воспроизвести в тестовых условиях: качество сканов, нестандартные шрифты, смешанные языки, документы с повреждениями или нечитаемыми фрагментами.
Кроме того, модели обновляются. Результаты, актуальные сегодня, через несколько месяцев могут выглядеть иначе – особенно учитывая темп, с которым развиваются основные игроки.
Так что правильный вывод из такого исследования – не «используйте модель X», а «прежде чем выбирать, протестируйте на своих данных». Бенчмарк даёт стартовую точку, но не заменяет проверку на реальной задаче.
Почему это вообще важно
Обработка документов – одна из самых массовых задач, с которыми сталкиваются компании при внедрении ИИ. Счета, договоры, анкеты, медицинские карты, налоговые формы – всё это требует точного извлечения информации, и цена ошибки здесь вполне конкретна.
При этом рынок инструментов для этой задачи перегрет: каждая компания заявляет о лучшей точности и скорости. Независимые сравнения на реальных объёмах – редкость. Именно поэтому подобные исследования ценны: они дают хоть какую-то нейтральную точку отсчёта в пространстве, где маркетинг заглушает технические детали.
Конечно, Nanonets – не независимый исследовательский институт, у компании есть собственный продукт на рынке IDP (интеллектуальной обработки документов). Это стоит учитывать при интерпретации результатов. Но методология открытая, бенчмарки публичные – при желании любой может воспроизвести тест и проверить выводы.
Что можно взять из этого для себя
Если вы выбираете или оцениваете ИИ-инструменты для работы с документами, вот несколько практических соображений, которые вытекают из этого исследования:
- Не ориентируйтесь только на общие рейтинги моделей – задача обработки документов специфична, и лидеры в чат-ботах не обязательно лидируют здесь.
- Тип документа имеет значение. Модель, отлично справляющаяся со счетами, может буксовать на научных текстах или инфографике.
- Стоимость и качество не всегда коррелируют так, как ожидается. Есть модели с хорошим соотношением цена/точность – их стоит рассматривать в первую очередь для типовых задач.
- Любой бенчмарк – это ориентир, не окончательный ответ. Тестирование на собственных документах остаётся обязательным шагом перед внедрением.
Исследование не даёт универсального победителя – и это, честно говоря, правильный результат. Потому что универсального победителя в этой задаче, скорее всего, и не существует.