Опубликовано 9 февраля 2026

Sarvam Vision: модель для работы с документами со знанием индийских языков

Индийский стартап выпустил компактную мультимодальную модель, способную распознавать текст на 22 языках страны – зачастую точнее, чем глобальные аналоги.

Продукты 4 – 6 минут чтения
Источник события: Sarvam 4 – 6 минут чтения

Мультимодальная модель Sarvam Vision для обработки документов

Когда знание заперто в документах

5 февраля индийская компания Sarvam AI представила Sarvam Vision – мультимодальную модель, которая умеет работать с текстом и изображениями. Ранее Sarvam выпускала решения для голоса и текста, теперь же разработчики охватили и визуальную составляющую.

Модель построена на базе архитектуры пространства состояний (state-space) и содержит три миллиарда параметров. Это не самая крупная модель на рынке – для сравнения, GPT-4 содержит, по разным оценкам, сотни миллиардов параметров, – но компактность здесь является преимуществом: модель работает быстрее и требует меньше ресурсов.

Основная задача Sarvam Vision – обработка документов. Модель умеет описывать изображения, распознавать текст на фотографиях, интерпретировать графики и разбирать сложные таблицы. Но главное – она специализирована на индийских языках.

Особенности распознавания редких индийских языков

Проблема, которую не решают глобальные модели

В Индии огромные объёмы информации до сих пор хранятся на бумаге: отсканированные архивы, исторические документы, государственные бюллетени. Чтобы эти данные стали доступны для исследований или использования в бизнесе, их необходимо оцифровать.

Проблема в том, что существующие решения для распознавания документов показывают хорошие результаты на английском, но буксуют на региональных языках Индии. Глобальные модели относятся к ним как к второстепенным, в результате чего точность распознавания падает.

В Sarvam решили эту проблему иначе: вместо того чтобы адаптировать западную модель, они обучили свою с нуля, уделив особое внимание 22 официальным языкам Индии – от хинди и бенгали до менее распространённых, таких как сантали или майтхили.

Процесс обучения и наборы данных для Sarvam Vision

Как обучали модель

Разработчики собрали обширный набор данных: синтетические и реальные пары «изображение – текст» для всех языков. В датасет вошли научные статьи, финансовые отчёты, государственные документы, исторические рукописи, учебники и газеты.

Для каждого типа документов данные готовили отдельно. Например, для графиков создавали задачи на извлечение структуры, описание и анализ. Для таблиц – на понимание связей между ячейками.

Обучение проходило в несколько этапов: сначала предварительное обучение базовой модели, затем тонкая настройка (fine-tuning) под конкретные задачи и обучение с подкреплением на основе проверяемых вознаграждений – то есть модель получала обратную связь в зависимости от того, насколько точно она выполнила задачу.

Тестирование точности распознавания текста и сравнение с конкурентами

Результаты на бенчмарках

Sarvam сравнили свою модель с конкурентами на нескольких популярных тестах. На англоязычной части olmOCR-Bench (бенчмарк для оценки распознавания текста в документах) Sarvam Vision показала результаты на уровне или выше GPT-5.2, Gemini 3 Pro и других крупных моделей. Особенно хорошо модель справилась с математическими текстами, таблицами и сканами старых документов.

Но главное – индийские языки. Поскольку стандартных бенчмарков для них не существовало, в Sarvam создали собственный: Sarvam Indic OCR Bench. В него вошло более 20 тысяч образцов документов на 22 языках: от текстов 1800-х годов до современных материалов.

На этом тесте Sarvam Vision обошла все остальные модели, включая Gemini 3 Pro и Claude Opus 4.5. Для хинди точность распознавания составила почти 96%, для бенгали – 93%, для тамильского – также 93%. Даже для менее распространённых языков, таких как одия или догри, результаты оказались заметно лучше, чем у конкурентов.

Возможности модели по анализу таблиц и графиков

Знание – это не просто текст

Разработчики подчёркивают важный момент: задача модели – не просто извлечь текст, а извлечь знание. Документы содержат не только слова, но и таблицы, графики, иллюстрации, инфографику. Чтобы полностью понять документ, нужно учитывать каждый пиксель.

Например, Sarvam Vision может:

  • распознать рукописный текст на историческом документе;
  • извлечь данные из сложной вложенной таблицы;
  • описать содержание графика на хинди или тамильском;
  • преобразовать визуальную информацию в структурированный JSON-формат.

В статье авторы привели несколько примеров. Модель корректно распознала рукописное письмо на английском 📝, отсканированный текст на тамильском из книги 1800-х годов, сложную таблицу с вложенными строками и график с данными на хинди.

Применение модели для распознавания объектов и сцен

Модель умеет больше, чем работать с документами

Хотя основной фокус направлен на обработку документов, Sarvam Vision также справляется с общими задачами компьютерного зрения. Модель может описывать сцены, распознавать текст «в естественной среде» – например, на вывесках или дорожных знаках, – и извлекать структурированную информацию из фотографий.

Разработчики продемонстрировали, как модель описывает улицу с велодорожкой на английском и каннада, распознаёт объявление на гуджарати, извлекает расписание рейсов с табло аэропорта на каннада и считывает рукописный школьный текст о Каламе.

Текущие ограничения и ошибки при работе с редкими языками

Где модель ошибается

В Sarvam честно признают: модель не идеальна. В статье приводятся два примера сбоев.

Первый – неправильный перевод названия магазина с бенгали. Модель распознала вывеску, но перевела её некорректно.

Второй – сложности с низкоресурсными языками. Когда модель попросили описать уличную сцену на языке сантали, она проигнорировала инструкцию и ответила на английском. Для редких языков качество следования инструкциям пока остаётся нестабильным.

Перспективы развития и доступ к API для разработчиков

Что дальше

Sarvam Vision доступна через API. Весь февраль 2026 года компания предоставляет бесплатный доступ к API для распознавания документов без ограничений по объёму. Это отличная возможность протестировать модель в реальных условиях.

Разработчики планируют развивать модель в сферах образования, здравоохранения и видеоаналитики. Также команда Sarvam приглашает разработчиков в свой Discord, чтобы обсуждать обновления и делиться обратной связью.

Примечательно, что компактная специализированная модель может конкурировать с гораздо более крупными универсальными решениями – особенно в тех областях, где критически важна точность работы с неанглийскими языками.

Ссылка на публикацию: https://www.sarvam.ai/blogs/Sarvam-vision
Оригинальное название: Sarvam Vision
Дата публикации: 8 фев 2026
Sarvam www.sarvam.ai Индийская ИИ-компания, разрабатывающая языковые модели и речевые технологии для локальных языков и сервисов.
Предыдущая статья Канадские клиники внедрили ИИ-ассистента Oracle для автоматизации медицинской документации Следующая статья Red Hat показывает, как ИИ может сделать сети телеком-операторов умнее и автономнее

Связанные публикации

Вам может быть интересно

Перейти к другим событиям

События – лишь часть картины. Эти материалы помогают увидеть шире: контекст, последствия и идеи, стоящие за новостями.

Индийская компания Sarvam AI представила систему для автоматического озвучивания видео на региональных языках с сохранением интонаций оригинала и синхронизацией движений губ.

Sarvamwww.sarvam.ai 8 фев 2026

Китайская компания выпустила открытую модель, которая работает одновременно с текстом, изображениями, видео и аудио, а также способна осуществлять поиск и анализ информации.

SenseTimewww.sensetime.com 30 янв 2026

Mistral AI представила Voxtral – модель для расшифровки речи в реальном времени с точным разделением спикеров и новой интерактивной «песочницей» для работы с аудио.

Mistral AImistral.ai 6 фев 2026

От источника к разбору

Как создавался этот текст

Этот материал не является прямым пересказом исходной публикации. Сначала была отобрана сама новость – как событие, важное для понимания развития ИИ. Затем мы задали рамку обработки: что в тексте важно прояснить, какой контекст добавить и на чём сделать акцент. Это позволило превратить отдельный анонс или обновление в связный и осмысленный разбор.

Нейросети, участвовавшие в работе

Мы открыто показываем, какие модели использовались на разных этапах обработки. Каждая из них выполняла свою роль – анализ источника, переписывание, проверка и визуальная интерпретация. Такой подход позволяет сохранить прозрачность процесса и ясно показать, как именно технологии участвовали в создании материала.

1.
Claude Sonnet 4.5 Anthropic Анализ исходной публикации и написание текста Нейросеть изучает оригинальный материал и формирует связный текст

1. Анализ исходной публикации и написание текста

Нейросеть изучает оригинальный материал и формирует связный текст

Claude Sonnet 4.5 Anthropic
2.
Gemini 3 Flash Preview Google DeepMind Проверка и правка текста Исправление ошибок, неточностей и спорных формулировок

2. Проверка и правка текста

Исправление ошибок, неточностей и спорных формулировок

Gemini 3 Flash Preview Google DeepMind
3.
DeepSeek-V3.2 DeepSeek Подготовка описания для иллюстрации Генерация текстового промпта для визуальной модели

3. Подготовка описания для иллюстрации

Генерация текстового промпта для визуальной модели

DeepSeek-V3.2 DeepSeek
4.
FLUX.2 Pro Black Forest Labs Создание иллюстрации Генерация изображения по подготовленному промпту

4. Создание иллюстрации

Генерация изображения по подготовленному промпту

FLUX.2 Pro Black Forest Labs

Не пропустите ни одного эксперимента!

Подпишитесь на Telegram-канал –
там мы регулярно публикуем анонсы новых книг, статей и интервью.

Подписаться