Опубликовано 9 февраля 2026

Sarvam Vision: модель для работы с документами со знанием индийских языков

Индийский стартап выпустил компактную мультимодальную модель, способную распознавать текст на 22 языках страны – зачастую точнее, чем глобальные аналоги.

Продукты 4 – 6 минут чтения

Источник события: Sarvam 4 – 6 минут чтения

Мультимодальная модель Sarvam Vision для обработки документов

Когда знание заперто в документах

5 февраля индийская компания Sarvam AI представила Sarvam Vision – мультимодальную модель, которая умеет работать с текстом и изображениями. Ранее Sarvam выпускала решения для голоса и текста, теперь же разработчики охватили и визуальную составляющую.

Модель построена на базе архитектуры пространства состояний (state-space) и содержит три миллиарда параметров. Это не самая крупная модель на рынке – для сравнения, GPT-4 содержит, по разным оценкам, сотни миллиардов параметров, – но компактность здесь является преимуществом: модель работает быстрее и требует меньше ресурсов.

Основная задача Sarvam Vision – обработка документов. Модель умеет описывать изображения, распознавать текст на фотографиях, интерпретировать графики и разбирать сложные таблицы. Но главное – она специализирована на индийских языках.

Особенности распознавания редких индийских языков

Проблема, которую не решают глобальные модели

В Индии огромные объёмы информации до сих пор хранятся на бумаге: отсканированные архивы, исторические документы, государственные бюллетени. Чтобы эти данные стали доступны для исследований или использования в бизнесе, их необходимо оцифровать.

Проблема в том, что существующие решения для распознавания документов показывают хорошие результаты на английском, но буксуют на региональных языках Индии. Глобальные модели относятся к ним как к второстепенным, в результате чего точность распознавания падает.

В Sarvam решили эту проблему иначе: вместо того чтобы адаптировать западную модель, они обучили свою с нуля, уделив особое внимание 22 официальным языкам Индии – от хинди и бенгали до менее распространённых, таких как сантали или майтхили.

Процесс обучения и наборы данных для Sarvam Vision

Как обучали модель

Разработчики собрали обширный набор данных: синтетические и реальные пары «изображение – текст» для всех языков. В датасет вошли научные статьи, финансовые отчёты, государственные документы, исторические рукописи, учебники и газеты.

Для каждого типа документов данные готовили отдельно. Например, для графиков создавали задачи на извлечение структуры, описание и анализ. Для таблиц – на понимание связей между ячейками.

Обучение проходило в несколько этапов: сначала предварительное обучение базовой модели, затем тонкая настройка (fine-tuning) под конкретные задачи и обучение с подкреплением на основе проверяемых вознаграждений – то есть модель получала обратную связь в зависимости от того, насколько точно она выполнила задачу.

Тестирование точности распознавания текста и сравнение с конкурентами

Результаты на бенчмарках

Sarvam сравнили свою модель с конкурентами на нескольких популярных тестах. На англоязычной части olmOCR-Bench (бенчмарк для оценки распознавания текста в документах) Sarvam Vision показала результаты на уровне или выше GPT-5.2, Gemini 3 Pro и других крупных моделей. Особенно хорошо модель справилась с математическими текстами, таблицами и сканами старых документов.

Но главное – индийские языки. Поскольку стандартных бенчмарков для них не существовало, в Sarvam создали собственный: Sarvam Indic OCR Bench. В него вошло более 20 тысяч образцов документов на 22 языках: от текстов 1800-х годов до современных материалов.

На этом тесте Sarvam Vision обошла все остальные модели, включая Gemini 3 Pro и Claude Opus 4.5. Для хинди точность распознавания составила почти 96%, для бенгали – 93%, для тамильского – также 93%. Даже для менее распространённых языков, таких как одия или догри, результаты оказались заметно лучше, чем у конкурентов.

Возможности модели по анализу таблиц и графиков

Знание – это не просто текст

Разработчики подчёркивают важный момент: задача модели – не просто извлечь текст, а извлечь знание. Документы содержат не только слова, но и таблицы, графики, иллюстрации, инфографику. Чтобы полностью понять документ, нужно учитывать каждый пиксель.

Например, Sarvam Vision может:

распознать рукописный текст на историческом документе;
извлечь данные из сложной вложенной таблицы;
описать содержание графика на хинди или тамильском;
преобразовать визуальную информацию в структурированный JSON-формат.

В статье авторы привели несколько примеров. Модель корректно распознала рукописное письмо на английском 📝, отсканированный текст на тамильском из книги 1800-х годов, сложную таблицу с вложенными строками и график с данными на хинди.

Применение модели для распознавания объектов и сцен

Модель умеет больше, чем работать с документами

Хотя основной фокус направлен на обработку документов, Sarvam Vision также справляется с общими задачами компьютерного зрения. Модель может описывать сцены, распознавать текст «в естественной среде» – например, на вывесках или дорожных знаках, – и извлекать структурированную информацию из фотографий.

Разработчики продемонстрировали, как модель описывает улицу с велодорожкой на английском и каннада, распознаёт объявление на гуджарати, извлекает расписание рейсов с табло аэропорта на каннада и считывает рукописный школьный текст о Каламе.

Текущие ограничения и ошибки при работе с редкими языками

Где модель ошибается

В Sarvam честно признают: модель не идеальна. В статье приводятся два примера сбоев.

Первый – неправильный перевод названия магазина с бенгали. Модель распознала вывеску, но перевела её некорректно.

Второй – сложности с низкоресурсными языками. Когда модель попросили описать уличную сцену на языке сантали, она проигнорировала инструкцию и ответила на английском. Для редких языков качество следования инструкциям пока остаётся нестабильным.

Перспективы развития и доступ к API для разработчиков

Что дальше

Sarvam Vision доступна через API. Весь февраль 2026 года компания предоставляет бесплатный доступ к API для распознавания документов без ограничений по объёму. Это отличная возможность протестировать модель в реальных условиях.

Разработчики планируют развивать модель в сферах образования, здравоохранения и видеоаналитики. Также команда Sarvam приглашает разработчиков в свой Discord, чтобы обсуждать обновления и делиться обратной связью.

Примечательно, что компактная специализированная модель может конкурировать с гораздо более крупными универсальными решениями – особенно в тех областях, где критически важна точность работы с неанглийскими языками.

#событие #прикладной разбор #нейросети #компьютерное зрение #лингвистика ии #данные #диалектные модели #мультимодальные модели

Ссылка на публикацию: https://www.sarvam.ai/blogs/Sarvam-vision

Оригинальное название: Sarvam Vision

Дата публикации: 8 фев 2026

Sarvam www.sarvam.ai Индийская ИИ-компания, разрабатывающая языковые модели и речевые технологии для локальных языков и сервисов.

Предыдущая статья Канадские клиники внедрили ИИ-ассистента Oracle для автоматизации медицинской документации Следующая статья Red Hat показывает, как ИИ может сделать сети телеком-операторов умнее и автономнее

Sarvam Vision: модель для работы с документами со знанием индийских языков

Мультимодальная модель Sarvam Vision для обработки документов

Особенности распознавания редких индийских языков

Процесс обучения и наборы данных для Sarvam Vision

Тестирование точности распознавания текста и сравнение с конкурентами

Возможности модели по анализу таблиц и графиков

Применение модели для распознавания объектов и сцен

Текущие ограничения и ошибки при работе с редкими языками

Перспективы развития и доступ к API для разработчиков

Связанные публикации

Sarvam Dub: автоматический дубляж на индийских языках

SenseTime открыла исходный код SenseNova-MARS – модели для поиска и анализа данных различных типов

Voxtral: транскрибация со скоростью звука

От источника к разбору

Нейросети, участвовавшие в работе

1. Анализ исходной публикации и написание текста

2. Проверка и правка текста

3. Подготовка описания для иллюстрации

4. Создание иллюстрации