Опубликовано 20 марта 2026

Тестирование ИИ моделей для обработки документов: сравнение 16 систем

16 ИИ-моделей, 9000 документов: кто справился лучше всех

Масштабное тестирование 16 ИИ-моделей на реальных документах показало неожиданные результаты: дорогие решения не всегда выигрывают у более доступных аналогов.

Продукты 4 – 6 минут чтения

Источник события: Nanonets 4 – 6 минут чтения

Когда компании выбирают ИИ для обработки документов, они обычно ориентируются на маркетинговые обещания, чужой опыт или интуицию. Провести собственное сравнение – дорого и долго. Команда Nanonets решила закрыть этот пробел и сделала то, что многие откладывают: взяла 16 популярных моделей и прогнала их через более чем 9000 реальных документов. Результаты оказались достаточно интересными, чтобы рассказать о них подробнее.

Что проверяли в тестировании ИИ для документов

Что именно проверяли

Тестирование строилось на трёх открытых бенчмарках, которые охватывают разные аспекты работы с документами.

Первый – DocVQA. Здесь модель получает изображение документа и должна ответить на конкретный вопрос по его содержанию. Проще говоря, это проверка того, насколько хорошо модель умеет «читать» документ и находить в нём нужную информацию.

Второй – InfographicVQA. Похожая задача, но сложнее: документы содержат инфографику, графики, таблицы. Модели нужно понять не только текст, но и визуальную структуру.

Третий – ArxivQA. Научные статьи с формулами, схемами и специфическим форматированием. Это, пожалуй, самый требовательный из трёх форматов.

Во всех случаях оценивалась не просто «ответила или нет», а точность ответа по стандартной метрике ANLS – она учитывает, насколько близок ответ к правильному, даже если он немного отличается по формулировке.

Какие ИИ-модели участвовали в тестировании

Кто участвовал в гонке

В тестировании приняли участие модели от основных игроков рынка: GPT-4.5 и GPT-4o от OpenAI, Gemini 2.0 Flash и Gemini 1.5 Pro от Google, Claude Opus и Claude Sonnet от Anthropic, а также ряд других решений – включая модели от Mistral, Open-Source варианты и специализированные системы для работы с документами.

Итого 16 моделей. Диапазон широкий: от флагманских коммерческих продуктов до более доступных и компактных вариантов.

Выводы исследования по работе ИИ с документами

Неожиданные выводы

Первое, что бросается в глаза: самые дорогие модели не всегда оказываются лучшими именно для работы с документами. Это, казалось бы, очевидная мысль, но на практике при выборе инструмента её часто игнорируют, ориентируясь на общий рейтинг модели, а не на конкретную задачу.

Gemini 2.0 Flash показал себя одним из самых сбалансированных вариантов. При относительно низкой стоимости он демонстрировал высокую точность на большинстве типов документов. Это редкое сочетание – обычно приходится выбирать между скоростью, ценой и качеством.

GPT-4o оставался стабильным и надёжным, особенно на структурированных документах. Не всегда лидировал, но почти нигде не проваливался – то, что называют «безопасным выбором».

Claude Sonnet хорошо справлялся с длинными и сложными документами, где важно удерживать контекст. На коротких и простых формах его преимущество было менее заметным.

Что касается научных статей из ArxivQA – здесь разрыв между моделями оказался наибольшим. Формулы, нестандартное форматирование и плотный технический текст давались большинству моделей заметно хуже, чем обычные деловые документы.

Цена обработки документов ИИ-моделями

Цена вопроса

Отдельно в исследовании анализировалась стоимость обработки. И вот тут картина становится практически важной для тех, кто думает о реальном внедрении.

Разница в цене между моделями – кратная. При этом разница в качестве на типовых задачах – значительно меньше. Если коротко: переплачивать за топовую модель при обработке стандартных счетов или форм, скорее всего, нет смысла. Но если документы сложные, нестандартные или требуют глубокого понимания контекста – здесь более мощная (и дорогая) модель может окупиться.

Это не универсальная истина, а скорее ориентир: тип документа должен влиять на выбор модели не меньше, чем общий рейтинг или узнаваемость бренда.

Бенчмарк ИИ моделей не заменяет реальное тестирование

Один бенчмарк – не приговор

Важная оговорка, которую авторы исследования сами подчёркивают: бенчмарки – это срез, а не полная картина. Реальная работа с документами включает множество факторов, которые сложно воспроизвести в тестовых условиях: качество сканов, нестандартные шрифты, смешанные языки, документы с повреждениями или нечитаемыми фрагментами.

Кроме того, модели обновляются. Результаты, актуальные сегодня, через несколько месяцев могут выглядеть иначе – особенно учитывая темп, с которым развиваются основные игроки.

Так что правильный вывод из такого исследования – не «используйте модель X», а «прежде чем выбирать, протестируйте на своих данных». Бенчмарк даёт стартовую точку, но не заменяет проверку на реальной задаче.

Важность тестирования ИИ для обработки документов

Почему это вообще важно

Обработка документов – одна из самых массовых задач, с которыми сталкиваются компании при внедрении ИИ. Счета, договоры, анкеты, медицинские карты, налоговые формы – всё это требует точного извлечения информации, и цена ошибки здесь вполне конкретна.

При этом рынок инструментов для этой задачи перегрет: каждая компания заявляет о лучшей точности и скорости. Независимые сравнения на реальных объёмах – редкость. Именно поэтому подобные исследования ценны: они дают хоть какую-то нейтральную точку отсчёта в пространстве, где маркетинг заглушает технические детали.

Конечно, Nanonets – не независимый исследовательский институт, у компании есть собственный продукт на рынке IDP (интеллектуальной обработки документов). Это стоит учитывать при интерпретации результатов. Но методология открытая, бенчмарки публичные – при желании любой может воспроизвести тест и проверить выводы.

Практические советы по выбору ИИ-инструментов для документов

Что можно взять из этого для себя

Если вы выбираете или оцениваете ИИ-инструменты для работы с документами, вот несколько практических соображений, которые вытекают из этого исследования:

Не ориентируйтесь только на общие рейтинги моделей – задача обработки документов специфична, и лидеры в чат-ботах не обязательно лидируют здесь.
Тип документа имеет значение. Модель, отлично справляющаяся со счетами, может буксовать на научных текстах или инфографике.
Стоимость и качество не всегда коррелируют так, как ожидается. Есть модели с хорошим соотношением цена/точность – их стоит рассматривать в первую очередь для типовых задач.
Любой бенчмарк – это ориентир, не окончательный ответ. Тестирование на собственных документах остаётся обязательным шагом перед внедрением.

Исследование не даёт универсального победителя – и это, честно говоря, правильный результат. Потому что универсального победителя в этой задаче, скорее всего, и не существует.

#аналитика #прикладной разбор #нейросети #машинное обучение #инфраструктура #продукты #бенчмарки ии #бенчмарки моделей

Ссылка на публикацию: https://nanonets.com/blog/idp-leaderboard-1-5/

Оригинальное название: We ran 16 AI Models on 9,000+ Real Documents. Here's What We Found.

Дата публикации: 11 мар 2026

Nanonets nanonets.com Американская компания, применяющая ИИ для автоматизации обработки документов и визуальных данных.

Предыдущая статья Как Rakuten стал устранять баги вдвое быстрее: роль ИИ-агента от OpenAI Следующая статья Tracy: новая библиотека для понимания происходящего внутри ИИ-приложения

Тестирование ИИ моделей для обработки документов: сравнение 16 систем

Что проверяли в тестировании ИИ для документов

Какие ИИ-модели участвовали в тестировании

Выводы исследования по работе ИИ с документами

Цена обработки документов ИИ-моделями

Бенчмарк ИИ моделей не заменяет реальное тестирование

Важность тестирования ИИ для обработки документов

Практические советы по выбору ИИ-инструментов для документов

Связанные публикации

GLM-OCR: маленькая модель, которая читает документы лучше больших

SenseTime представила SenseNova-SI-1.3 – модель с продвинутым пространственным интеллектом

Perplexity выпустила собственные модели для поиска по огромным массивам текста

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации