Если спросить, где в корпоративных документах скрыта самая ценная информация, ответ чаще всего будет один: в таблицах. Финансовые отчёты, технические спецификации, медицинские данные – всё это, как правило, структурировано именно так. И именно с таблицами у большинства ИИ-инструментов исторически возникают проблемы.
Таблицы – это не просто текст
Проще говоря, распознать таблицу сложнее, чем кажется. Это не просто набор слов – это структура, где важно, что в какой строке и в каком столбце. Слитые ячейки, вложенные заголовки, сложная вёрстка – всё это превращает задачу в головоломку даже для мощных моделей. Именно поэтому многие компании до сих пор вручную разбирают документы или платят за специализированные сервисы.
На этом фоне компания LightOn представила вторую версию своей модели – LightOnOCR-2. Это открытая модель, специализированная на так называемом OCR, то есть на оптическом распознавании символов и структур в отсканированных или сфотографированных документах. Но главное достижение здесь – не просто распознавание символов, а умение точно извлекать таблицы со всеми строками, столбцами и их взаимосвязями.
Как LightOnOCR-2 оказалась лучше коммерческих гигантов
В ходе сравнительного тестирования LightOnOCR-2 обошла целый ряд известных решений: Claude, GPT-5, Qwen3, Mistral и Mathpix – именно по задаче извлечения таблиц. Это примечательно по нескольким причинам.
Во-первых, большинство перечисленных моделей – коммерческие, за ними стоят крупные компании с огромными ресурсами. LightOnOCR-2 – открытая, то есть её код и веса доступны всем желающим. Во-вторых, большие универсальные модели вроде GPT-5 или Claude умеют делать многое, но нередко проигрывают более узкоспециализированным решениям именно там, где нужна точность в конкретной задаче.
Это напоминает ситуацию, когда универсальный инструмент хорош для большинства дел, но если нужно сделать что-то точно – берёшь специализированный. LightOnOCR-2 – как раз тот случай: модель заточена под работу с документами, и именно в этой нише она показывает результат выше, чем более крупные «многостаночники».
Почему это важно для работы с документами
Задача извлечения таблиц – не абстрактный бенчмарк. За ней стоит вполне конкретная потребность: компании ежедневно работают с огромным количеством документов, где данные упакованы именно в табличном виде. Банки разбирают финансовые отчёты, больницы – медицинские карты, логистические компании – накладные. Ошибка в одной ячейке может исказить всю картину.
До сих пор автоматизация этого процесса была либо дорогой (коммерческие решения с подпиской), либо ненадёжной (универсальные модели, которые «понимают» таблицу приблизительно). LightOnOCR-2 предлагает третий вариант: открытое решение с высокой точностью, которое можно развернуть самостоятельно.
Это особенно актуально для организаций, которым важно не передавать документы во внешние облачные сервисы – по соображениям конфиденциальности или требованиям регуляторов. Локальное развёртывание открытой модели решает эту проблему.
Открытость как конкурентное преимущество
LightOnOCR-2 выходит в момент, когда открытые модели всё активнее теснят коммерческие в узкоспециализированных задачах. Недавно Google выпустила семейство Gemma 4 – тоже открытые модели под лицензией Apache 2.0, которые в определённых сценариях конкурируют с решениями значительно большего размера. Тенденция очевидна: открытые разработки перестают быть «второй лигой» и начинают задавать стандарты в конкретных нишах.
В случае с LightOnOCR-2 ниша – работа с документами и таблицами. И судя по результатам тестирования, здесь открытая модель не просто не уступает коммерческим аналогам – она их превосходит.
Что остаётся открытым
Результаты бенчмарков – это всегда срез в определённых условиях. Как модель ведёт себя на реальных документах с нестандартной вёрсткой, на языках с иной типографикой, с таблицами, где данные частично повреждены или нечитаемы – это отдельные вопросы, которые проверяются уже в практике, а не в лабораторных тестах.
Тем не менее появление сильной открытой альтернативы в нише, где долго доминировали коммерческие решения, – это заметное событие. Особенно для команд, которые ищут надёжный инструмент для работы с документами, не готовы зависеть от внешних API и хотят понимать, что именно происходит «под капотом».