Когда знание заперто в документах
5 февраля индийская компания Sarvam AI представила Sarvam Vision – мультимодальную модель, которая умеет работать с текстом и изображениями. Ранее Sarvam выпускала решения для голоса и текста, теперь же разработчики охватили и визуальную составляющую.
Модель построена на базе архитектуры пространства состояний (state-space) и содержит три миллиарда параметров. Это не самая крупная модель на рынке – для сравнения, GPT-4 содержит, по разным оценкам, сотни миллиардов параметров, – но компактность здесь является преимуществом: модель работает быстрее и требует меньше ресурсов.
Основная задача Sarvam Vision – обработка документов. Модель умеет описывать изображения, распознавать текст на фотографиях, интерпретировать графики и разбирать сложные таблицы. Но главное – она специализирована на индийских языках.
Проблема, которую не решают глобальные модели
В Индии огромные объёмы информации до сих пор хранятся на бумаге: отсканированные архивы, исторические документы, государственные бюллетени. Чтобы эти данные стали доступны для исследований или использования в бизнесе, их необходимо оцифровать.
Проблема в том, что существующие решения для распознавания документов показывают хорошие результаты на английском, но буксуют на региональных языках Индии. Глобальные модели относятся к ним как к второстепенным, в результате чего точность распознавания падает.
В Sarvam решили эту проблему иначе: вместо того чтобы адаптировать западную модель, они обучили свою с нуля, уделив особое внимание 22 официальным языкам Индии – от хинди и бенгали до менее распространённых, таких как сантали или майтхили.
Как обучали модель
Разработчики собрали обширный набор данных: синтетические и реальные пары «изображение – текст» для всех языков. В датасет вошли научные статьи, финансовые отчёты, государственные документы, исторические рукописи, учебники и газеты.
Для каждого типа документов данные готовили отдельно. Например, для графиков создавали задачи на извлечение структуры, описание и анализ. Для таблиц – на понимание связей между ячейками.
Обучение проходило в несколько этапов: сначала предварительное обучение базовой модели, затем тонкая настройка (fine-tuning) под конкретные задачи и обучение с подкреплением на основе проверяемых вознаграждений – то есть модель получала обратную связь в зависимости от того, насколько точно она выполнила задачу.
Результаты на бенчмарках
Sarvam сравнили свою модель с конкурентами на нескольких популярных тестах. На англоязычной части olmOCR-Bench (бенчмарк для оценки распознавания текста в документах) Sarvam Vision показала результаты на уровне или выше GPT-5.2, Gemini 3 Pro и других крупных моделей. Особенно хорошо модель справилась с математическими текстами, таблицами и сканами старых документов.
Но главное – индийские языки. Поскольку стандартных бенчмарков для них не существовало, в Sarvam создали собственный: Sarvam Indic OCR Bench. В него вошло более 20 тысяч образцов документов на 22 языках: от текстов 1800-х годов до современных материалов.
На этом тесте Sarvam Vision обошла все остальные модели, включая Gemini 3 Pro и Claude Opus 4.5. Для хинди точность распознавания составила почти 96%, для бенгали – 93%, для тамильского – также 93%. Даже для менее распространённых языков, таких как одия или догри, результаты оказались заметно лучше, чем у конкурентов.
Знание – это не просто текст
Разработчики подчёркивают важный момент: задача модели – не просто извлечь текст, а извлечь знание. Документы содержат не только слова, но и таблицы, графики, иллюстрации, инфографику. Чтобы полностью понять документ, нужно учитывать каждый пиксель.
Например, Sarvam Vision может:
- распознать рукописный текст на историческом документе;
- извлечь данные из сложной вложенной таблицы;
- описать содержание графика на хинди или тамильском;
- преобразовать визуальную информацию в структурированный JSON-формат.
В статье авторы привели несколько примеров. Модель корректно распознала рукописное письмо на английском 📝, отсканированный текст на тамильском из книги 1800-х годов, сложную таблицу с вложенными строками и график с данными на хинди.
Модель умеет больше, чем работать с документами
Хотя основной фокус направлен на обработку документов, Sarvam Vision также справляется с общими задачами компьютерного зрения. Модель может описывать сцены, распознавать текст «в естественной среде» – например, на вывесках или дорожных знаках, – и извлекать структурированную информацию из фотографий.
Разработчики продемонстрировали, как модель описывает улицу с велодорожкой на английском и каннада, распознаёт объявление на гуджарати, извлекает расписание рейсов с табло аэропорта на каннада и считывает рукописный школьный текст о Каламе.
Где модель ошибается
В Sarvam честно признают: модель не идеальна. В статье приводятся два примера сбоев.
Первый – неправильный перевод названия магазина с бенгали. Модель распознала вывеску, но перевела её некорректно.
Второй – сложности с низкоресурсными языками. Когда модель попросили описать уличную сцену на языке сантали, она проигнорировала инструкцию и ответила на английском. Для редких языков качество следования инструкциям пока остаётся нестабильным.
Что дальше
Sarvam Vision доступна через API. Весь февраль 2026 года компания предоставляет бесплатный доступ к API для распознавания документов без ограничений по объёму. Это отличная возможность протестировать модель в реальных условиях.
Разработчики планируют развивать модель в сферах образования, здравоохранения и видеоаналитики. Также команда Sarvam приглашает разработчиков в свой Discord, чтобы обсуждать обновления и делиться обратной связью.
Примечательно, что компактная специализированная модель может конкурировать с гораздо более крупными универсальными решениями – особенно в тех областях, где критически важна точность работы с неанглийскими языками.