Опубликовано 20 марта 2026

Тестирование ИИ моделей для обработки документов: сравнение 16 систем

16 ИИ-моделей, 9000 документов: кто справился лучше всех

Масштабное тестирование 16 ИИ-моделей на реальных документах показало неожиданные результаты: дорогие решения не всегда выигрывают у более доступных аналогов.

Продукты 4 – 6 минут чтения
Источник события: Nanonets 4 – 6 минут чтения

Когда компании выбирают ИИ для обработки документов, они обычно ориентируются на маркетинговые обещания, чужой опыт или интуицию. Провести собственное сравнение – дорого и долго. Команда Nanonets решила закрыть этот пробел и сделала то, что многие откладывают: взяла 16 популярных моделей и прогнала их через более чем 9000 реальных документов. Результаты оказались достаточно интересными, чтобы рассказать о них подробнее.

Что проверяли в тестировании ИИ для документов

Что именно проверяли

Тестирование строилось на трёх открытых бенчмарках, которые охватывают разные аспекты работы с документами.

Первый – DocVQA. Здесь модель получает изображение документа и должна ответить на конкретный вопрос по его содержанию. Проще говоря, это проверка того, насколько хорошо модель умеет «читать» документ и находить в нём нужную информацию.

Второй – InfographicVQA. Похожая задача, но сложнее: документы содержат инфографику, графики, таблицы. Модели нужно понять не только текст, но и визуальную структуру.

Третий – ArxivQA. Научные статьи с формулами, схемами и специфическим форматированием. Это, пожалуй, самый требовательный из трёх форматов.

Во всех случаях оценивалась не просто «ответила или нет», а точность ответа по стандартной метрике ANLS – она учитывает, насколько близок ответ к правильному, даже если он немного отличается по формулировке.

Какие ИИ-модели участвовали в тестировании

Кто участвовал в гонке

В тестировании приняли участие модели от основных игроков рынка: GPT-4.5 и GPT-4o от OpenAI, Gemini 2.0 Flash и Gemini 1.5 Pro от Google, Claude Opus и Claude Sonnet от Anthropic, а также ряд других решений – включая модели от Mistral, Open-Source варианты и специализированные системы для работы с документами.

Итого 16 моделей. Диапазон широкий: от флагманских коммерческих продуктов до более доступных и компактных вариантов.

Выводы исследования по работе ИИ с документами

Неожиданные выводы

Первое, что бросается в глаза: самые дорогие модели не всегда оказываются лучшими именно для работы с документами. Это, казалось бы, очевидная мысль, но на практике при выборе инструмента её часто игнорируют, ориентируясь на общий рейтинг модели, а не на конкретную задачу.

Gemini 2.0 Flash показал себя одним из самых сбалансированных вариантов. При относительно низкой стоимости он демонстрировал высокую точность на большинстве типов документов. Это редкое сочетание – обычно приходится выбирать между скоростью, ценой и качеством.

GPT-4o оставался стабильным и надёжным, особенно на структурированных документах. Не всегда лидировал, но почти нигде не проваливался – то, что называют «безопасным выбором».

Claude Sonnet хорошо справлялся с длинными и сложными документами, где важно удерживать контекст. На коротких и простых формах его преимущество было менее заметным.

Что касается научных статей из ArxivQA – здесь разрыв между моделями оказался наибольшим. Формулы, нестандартное форматирование и плотный технический текст давались большинству моделей заметно хуже, чем обычные деловые документы.

Цена обработки документов ИИ-моделями

Цена вопроса

Отдельно в исследовании анализировалась стоимость обработки. И вот тут картина становится практически важной для тех, кто думает о реальном внедрении.

Разница в цене между моделями – кратная. При этом разница в качестве на типовых задачах – значительно меньше. Если коротко: переплачивать за топовую модель при обработке стандартных счетов или форм, скорее всего, нет смысла. Но если документы сложные, нестандартные или требуют глубокого понимания контекста – здесь более мощная (и дорогая) модель может окупиться.

Это не универсальная истина, а скорее ориентир: тип документа должен влиять на выбор модели не меньше, чем общий рейтинг или узнаваемость бренда.

Бенчмарк ИИ моделей не заменяет реальное тестирование

Один бенчмарк – не приговор

Важная оговорка, которую авторы исследования сами подчёркивают: бенчмарки – это срез, а не полная картина. Реальная работа с документами включает множество факторов, которые сложно воспроизвести в тестовых условиях: качество сканов, нестандартные шрифты, смешанные языки, документы с повреждениями или нечитаемыми фрагментами.

Кроме того, модели обновляются. Результаты, актуальные сегодня, через несколько месяцев могут выглядеть иначе – особенно учитывая темп, с которым развиваются основные игроки.

Так что правильный вывод из такого исследования – не «используйте модель X», а «прежде чем выбирать, протестируйте на своих данных». Бенчмарк даёт стартовую точку, но не заменяет проверку на реальной задаче.

Важность тестирования ИИ для обработки документов

Почему это вообще важно

Обработка документов – одна из самых массовых задач, с которыми сталкиваются компании при внедрении ИИ. Счета, договоры, анкеты, медицинские карты, налоговые формы – всё это требует точного извлечения информации, и цена ошибки здесь вполне конкретна.

При этом рынок инструментов для этой задачи перегрет: каждая компания заявляет о лучшей точности и скорости. Независимые сравнения на реальных объёмах – редкость. Именно поэтому подобные исследования ценны: они дают хоть какую-то нейтральную точку отсчёта в пространстве, где маркетинг заглушает технические детали.

Конечно, Nanonets – не независимый исследовательский институт, у компании есть собственный продукт на рынке IDP (интеллектуальной обработки документов). Это стоит учитывать при интерпретации результатов. Но методология открытая, бенчмарки публичные – при желании любой может воспроизвести тест и проверить выводы.

Практические советы по выбору ИИ-инструментов для документов

Что можно взять из этого для себя

Если вы выбираете или оцениваете ИИ-инструменты для работы с документами, вот несколько практических соображений, которые вытекают из этого исследования:

  • Не ориентируйтесь только на общие рейтинги моделей – задача обработки документов специфична, и лидеры в чат-ботах не обязательно лидируют здесь.
  • Тип документа имеет значение. Модель, отлично справляющаяся со счетами, может буксовать на научных текстах или инфографике.
  • Стоимость и качество не всегда коррелируют так, как ожидается. Есть модели с хорошим соотношением цена/точность – их стоит рассматривать в первую очередь для типовых задач.
  • Любой бенчмарк – это ориентир, не окончательный ответ. Тестирование на собственных документах остаётся обязательным шагом перед внедрением.

Исследование не даёт универсального победителя – и это, честно говоря, правильный результат. Потому что универсального победителя в этой задаче, скорее всего, и не существует.

Ссылка на публикацию: https://nanonets.com/blog/idp-leaderboard-1-5/
Оригинальное название: We ran 16 AI Models on 9,000+ Real Documents. Here's What We Found.
Дата публикации: 11 мар 2026
Nanonets nanonets.com Американская компания, применяющая ИИ для автоматизации обработки документов и визуальных данных.
Предыдущая статья Как Rakuten стал устранять баги вдвое быстрее: роль ИИ-агента от OpenAI Следующая статья Tracy: новая библиотека для понимания происходящего внутри ИИ-приложения

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.6 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.6 Anthropic
2.
Gemini 2.5 Flash Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 2.5 Flash Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Хотите знать о новых
экспериментах первыми?

Подписывайтесь на наш Telegram-канал – там мы делимся всем самым
свежим и интересным из мира NeuraBooks.

Подписаться